将HTML文件正确转换为纯文本
- 类别: 软件
您要将本地或在线HTML文件转换为纯文本格式(.txt)的原因有两个。也许您想将文件移到无法正确读取或显示HTML文件的设备上,或者您想将多个HTML文档转换为单个文本文档以方便存档,或者您只需要文本信息从文档中使用它们进行工作。
尽管您现在可以继续使用复制和粘贴来执行此操作,或者手动查看源代码,但是您可能会很快意识到这样做需要一些时间。通常不是最好的选择源代码,因为您最终可能会将HTML标记复制到新文档中,而这些标记在纯txt文件中没有解释。根据HTML文件的结构,在浏览器中查看文本内容时,复制文本内容也可能会遇到问题。
Nirsoft的HTML文本 急于解决,因为它为您提供了将HTML文件转换为纯文本的自动方法。该程序旨在与单个和多个HTML文件一起使用,只要文档存储在硬盘驱动器上的单个文件夹或文件夹结构中即可。您可以使用通配符选择驱动器上的HTML文件,也可以使用对应的txt文件的通配符。
您只需选择HTML根文件夹并定义您是要使用通配符转换单个文件还是转换多个文件。如果子文件夹中有HTML文档,请在此处也选择扫描子文件夹选项。
转换选项定义了几个输出参数。在这里,您可以选择每行的最大字符数,以及要用作无序列表的字符。 HTMLAsText不仅从HTML文档中提取文本,而且还保留了部分文档格式。
其他与格式相关的选项可用于通过使用下划线突出显示标题标签(h1至h6),跳过标题标签,用所选字符将粗体文本括起来以及允许居中或右对齐的文本。
您可以保存配置以在将来的任何时候加载它,如果您需要将HTML文档定期转换为文本,则可能会很有用。单个文档的转换时间不会超过一秒钟,输出的质量为很好尽管您可能仍需要手动编辑文本文档,例如,通过删除不需要的导航元素或菜单,但该程序的格式保留功能可将其限制为通常花费的时间的一小部分。