PDF 文件以固定的布局格式呈现信息,这使其成为保持文档完整性的理想文档格式。然而,当您需要分析或操作其中包含的数据时,这种固定布局可能就不太适合。为了方便数据处理,可将 PDF 转换为 Excel,以利用其包含的公式、条件格式、数据透视表和图表等丰富功能,从而更加高效地分析、操作和可视化数据。本文将介绍如何使用 Spire.PDF for Python 在 Python 中实现 PDF 转 Excel。
安装 Spire.PDF for Python
本教程需要用到 Spire.PDF for Python 和 plum-dispatch v1.7.4。可以通过以下 pip 命令将它们轻松安装到 Windows 中。
pip install Spire.PDF
如果您不清楚如何安装,请参考此教程: 如何在 Windows 中安装 Spire.PDF for Python
Python 转换 PDF 为 Excel
Spire.PDF for Python 提供的 PdfDocument.SaveToFile() 方法能将 PDF 文件保存为 Excel 格式。在转换前,您可以通过创建 XlsxLineLayoutOptions 类的对象来指定转换选项,然后使用 PdfDocument.ConvertOptions.SetPdfToXlsxOptions() 方法应用转换选项。
XlsxLineLayoutOptions 类的构造函数可传入以下五个参数,这些参数允许你控制如何将 PDF 转换为 Excel:
- convertToMultipleSheet (bool): 表示是否将多个 PDF 页面渲染到一个 Excel 工作表中。
- rotatedText (bool): 表示是否显示旋转的文本。
- splitCell (bool): 表示一个包含多行文本的 PDF 表格单元格是否会在 Excel 中被拆分成多行。
- wrapText (bool): 表示是否对 Excel 单元格中的文本进行换行。
- overlapText (bool): 表示是否显示重叠的文本。
以下是如何使用 Spire.PDF for Python 将 PDF 文档转换为 Excel XLSX 格式并指定转换选项的具体步骤。
- 创建一个 PdfDocument 对象
- 使用 PdfDocument.LoadFromFile() 方法加载 PDF 文档。
- 创建一个 XlsxLineLayoutOptions 对象,并将相应的参数传递给 XlsxLineLayoutOptions 类的构造函数,以指定转换选项。
- 使用 PdfDocument.ConvertOptions.SetPdfToXlsxOptions() 方法应用转换选项。
- 使用 PdfDocument.SaveToFile() 方法将 PDF 文档保存为 Excel XLSX 格式。
- Python
from spire.pdf.common import *
from spire.pdf import *
# 创建PdfDocument对象
pdf = PdfDocument()
# 加载PDF文档
pdf.LoadFromFile("财务表.pdf")
# 创建 XlsxLineLayoutOptions 对象来指定转换选项
# 参数: convertToMultipleSheet, rotatedText, splitCell, wrapText, overlapText
convertOptions = XlsxLineLayoutOptions(True, True, False, True, False)
# 设置转换选项
pdf.ConvertOptions.SetPdfToXlsxOptions(convertOptions)
# 将PDF文档保存为Excel XLSX格式
pdf.SaveToFile("Pdf转Excel.xlsx", FileFormat.XLSX)
pdf.Close()
申请临时 License
如果您希望删除结果文档中的评估消息,或者摆脱功能限制,请该Email地址已收到反垃圾邮件插件保护。要显示它您需要在浏览器中启用JavaScript。获取有效期 30 天的临时许可证。