安装 HTML 转文本 Python 库 📅 2026/7/1 2:48:17 打开终端 / 命令行执行以下命令即可自动完成安装pip install spire.docPython 将 HTML 文件转换为文本借助Spire.Doc for Python仅需 3 个简单步骤即可将本地 HTML 文件转换为纯文本创建 Document 对象 → 加载 HTML 文件 → 保存为 TXT 格式。整个过程简洁高效新手也能轻松上手下面详细介绍代码实现代码示例 — HTML 文件转 TXT 文本文件from spire.doc import * from spire.doc.common import * # 打开 HTML 文件 document Document() document.LoadFromFile(sample.html.html, FileFormat.Html, XHTMLValidationType.none) # 保存为文本文件 document.SaveToFile(HTML转文本.txt, FileFormat.Txt) document.Close()转换效果预览源文件 vs 输出文件请注意若 HTML 文件包含表格输出的文本文件将仅保留表格中的数据无法保留原始表格格式。若希望移除标记的同时保留特定样式建议先将 HTML 转换为 Word 文档这样可保留标题、表格等格式让内容更易于编辑和使用。Python 将 HTML 字符串转换为文本如果仅需提取网页部分内容如爬取的 HTML 片段可直接将 HTML 字符串转换为文本无需加载完整 HTML 文件更灵活高效。Spire.Doc 转换 HTML 字符串到文本文件的实现步骤直接输入 HTML 字符串或从本地文件读取创建 Document 对象并添加节Section和段落Paragraph使用 Paragraph.AppendHTML() 方法将 HTML 字符串插入段落通过 Document.SaveToFile() 方法将文档保存为 .txt 文件。代码示例 — HTML 字符串转 TXT 文本文件from spire.doc import * from spire.doc.common import * # 获取 HTML 字符串可注释下方代码取消注释读取本地文件的逻辑 # with open(inputFile) as fp: # html fp.read() # 定义 HTML 字符串 html html body h1示例HTML内容/h1 p这是一个包含strong粗体/strong和em斜体/em文本的段落。/p p另一行带有a hrefhttps://example.com链接/a。/p ul li列表项1/li li列表项2带有em斜体/em文本/li /ul p特殊字符© ®/p /body /html # 创建新文档 document Document() section document.AddSection() # 将 HTML 字符串插入段落 section.AddParagraph().AppendHTML(html) # 保存为 TXT 文件 document.SaveToFile(HTML字符串转文本.txt, FileFormat.Txt) document.Close()转换后的 TXT 文件预览