HTML 是用于网页的标准标记语言。将 PDF 文档转换为 HTML 格式可以方便将文档直接嵌入到网页中,使其可在 Web 浏览器中轻松访问和查看,无需额外的软件或插件。本文将演示如何使用 Spire.PDF for Python 在 Python 程序中将 PDF 转换为 HTML。
安装 Spire.PDF for Python
本教程需要用到 Spire.PDF for Python 和 plum-dispatch v1.7.4。可以通过以下 pip 命令将它们轻松安装到 Windows 中。
pip install Spire.PDF
如果您不清楚如何安装,请参考:如何在 Windows 中安装 Spire.PDF for Python
用 Python 将 PDF 文档转换为 HTML
使用 Spire.PDF for Python 提供的 PdfDocument.SaveToFile() 方法可以将 PDF 文档转换为 HTML 格式。以下是详细操作步骤:
- 创建 PdfDocument 类的对象。
- 使用 PdfDocument.LoadFromFile() 方法加载 PDF 文档。
- 使用 PdfDocument.SaveToFile() 方法将文档保存为 HTML 格式。
- Python
from spire.pdf.common import *
from spire.pdf import *
# 创建PdfDocument类的对象
doc = PdfDocument()
# 载入PDF文档
doc.LoadFromFile("示例.pdf")
# 将文档保存为PDF文件
doc.SaveToFile("output/PDF转HTML.html", FileFormat.HTML)
doc.Close()
将 PDF 转换为 HTML 并设置转换选项
PdfConvertOptions 类的 SetPdfToHtmlOptions() 方法可以在转换 PDF 文件为 HTML 时设置转换选项。该方法接受以下参数:
- useEmbeddedSvg (bool):指示是否在生成的 HTML 文件中嵌入 SVG。
- useEmbeddedImg (bool):指示是否在生成的 HTML 文件中嵌入图像。此选项仅适用于 useEmbeddedSvg 设置为 False 时。
- maxPageOneFile (bool):指定每个 HTML 文件中包含的最大页面数。此选项仅适用于 useEmbeddedSvg 设置为 False 时。
- useHighQualityEmbeddedSvg (bool):指示是否在生成的 HTML 文件中使用高质量的嵌入 SVG。此选项适用于 useEmbeddedSvg 设置为 True 时。
以下是将 PDF 转换为 HTML 时设置转换选项的操作步骤:
- 创建 PdfDocument 类的对象。
- 使用 PdfDocument.LoadFromFile() 方法加载 PDF 文档。
- 使用 PdfDocument.ConvertOptions 属性获取 PdfConvertOptions 对象。
- 使用 PdfConvertOptions.SetPdfToHtmlOptions() 方法指定 PDF 到 HTML 的转换选项。
- 使用 PdfDocument.SaveToFile() 方法将文档保存为 HTML 格式。
- Python
from spire.pdf.common import *
from spire.pdf import *
# 创建PdfDocument类的对象
doc = PdfDocument()
# 载入PDF文档
doc.LoadFromFile("示例.pdf")
# 将转换选项设置为在HTML中嵌入图片并输出为单页HTML
pdfToHtmlOptions = doc.ConvertOptions
pdfToHtmlOptions.SetPdfToHtmlOptions(False, True, 1, False)
# 将文档保存为HTML格式
doc.SaveToFile("output/PDF转HTML设置选项.html", FileFormat.HTML)
doc.Close()
用 Python 将 PDF 文档转换为 HTML 流
除了将 PDF 文档转换为 HTML 文件外,还可以使用 PdfDocument.SaveToStream() 方法将其保存到 HTML 流中。具体步骤如下:
- 创建 PdfDocument 类的对象。
- 使用 PdfDocument.LoadFromFile() 方法加载 PDF 文档。
- 创建 Stream 类的对象。
- 使用 PdfDocument.SaveToStream() 方法将 PDF 文档保存到 HTML 流中。
- Python
from spire.pdf.common import *
from spire.pdf import *
# PdfDocument类的对象
doc = PdfDocument()
# 载入PDF文档
doc.LoadFromFile("示例.pdf")
# 将文档保存到HTML流
fileStream = Stream("output/PDF转HTML流.html")
doc.SaveToStream(fileStream, FileFormat.HTML)
fileStream.Close()
doc.Close()
申请临时 License
如果您希望删除结果文档中的评估消息,或者摆脱功能限制,请该Email地址已收到反垃圾邮件插件保护。要显示它您需要在浏览器中启用JavaScript。获取有效期 30 天的临时许可证。