将 Word 文档转换为 HTML 可轻松实现在线共享和发布文档内容。此外,HTML 内容对搜索引擎更友好,因此转换为 HTML 还能让搜索引擎更好地理解和索引您的内容,提高其在搜索结果中的排名。本文将演示如何使用 Spire.Doc for Python 通过代码实现 Word 转 HTML。
安装 Spire.Doc for Python
本教程需要用到 Spire.Doc for Python 和 plum-dispatch v1.7.4。可以通过以下 pip 命令将它们轻松安装到 Windows 中。
pip install Spire.Doc
如果您不确定如何安装,请参考此教程:如何在 Windows 中安装 Spire.Doc for Python
Python 将 Word Doc/Docx 转换为 HTML
Spire.Doc for Python 提供的 Document.SaveToFile(fileName string, FileFormat.Html) 方法可以轻松地将 doc 或 docx 文档保存为 HTML 文件。具体步骤如下。
- 创建一个 Document 类的对象。
- 使用 Document.LoadFromFile() 方法加载一个 Word 文档。
- 使用 Document.SaveToFile() 方法将 Word 转换为 HTML 文件。
- Python
from spire.doc import *
from spire.doc.common import *
# 创建Document对象
document = Document()
# 加载一个doc或docx文档
document.LoadFromFile("清单.docx")
# 保存为HTML文件
document.SaveToFile("Output/Word转Html.html", FileFormat.Html)
document.Close()
Python 将 Word 转换为 HTML 并设置导出选项
Spire.Doc for Python 还提供了 HtmlExportOptions 类,用于在转换过程中设置 Word 到 HTML 的导出选项,例如是否嵌入 CSS 样式、图像以及是否将表单域导出为纯文本等。具体步骤如下。
- 创建一个 Document 类的对象。
- 使用 Document.LoadFromFile() 方法加载 Word 文档。
- 使用 Document.HtmlExportOptions.CssStyleSheetType 属性设置嵌入 CSS 样式。
- 使用 Document.HtmlExportOptions.ImageEmbedded 属性设置是否嵌入图像。
- 使用 Document.HtmlExportOptions.IsTextInputFormFieldAsText 属性设置是否以纯文本形式导出表单字段。
- 使用 Document.SaveToFile() 方法保存结果文档。
- Python
from spire.doc import *
from spire.doc.common import *
# 创建Document对象
document = Document()
# 加载Word文档
document.LoadFromFile("Statement.docx")
# 嵌入CSS样式
document.HtmlExportOptions.CssStyleSheetFileName = "sample.css"
document.HtmlExportOptions.CssStyleSheetType = CssStyleSheetType.External
# 设置是否嵌入图像
document.HtmlExportOptions.ImageEmbedded = False
document.HtmlExportOptions.ImagesPath = "Images/"
# 设置是否将表单字段导出为纯文本
document.HtmlExportOptions.IsTextInputFormFieldAsText = True
# 将文档保存为 html 文件
document.SaveToFile("ToHtmlExportOption.html", FileFormat.Html)
document.Close()
申请临时 License
如果您希望删除结果文档中的评估消息,或者摆脱功能限制,请该Email地址已收到反垃圾邮件插件保护。要显示它您需要在浏览器中启用JavaScript。获取有效期 30 天的临时许可证。