PDF 文档除了可以包含文字信息以外,还可能包含大量的图片内容。从 PDF 文档中提取这些图片不仅可以帮助我们对图片的信息进行深入地分析和处理,还可以将它们集成到其他文档或项目中,或者共享给其他人。这篇文章将介绍如何使用 Spire.PDF for Python 和 Python 提取 PDF 文档中的图片。
安装 Spire.PDF for Python
本教程需要用到 Spire.PDF for Python 和 plum-dispatch v1.7.4。可以通过以下 pip 命令将它们轻松安装到 Windows 中。
pip install Spire.PDF
如果您不确定如何安装,请参考此教程:如何在 Windows 中安装 Spire.PDF for Python
Python 从 PDF 文档中提取图片
Spire.PDF for Python 提供了 PdfImageHelper.GetImagesInfo(page: PdfPageBase) 方法,允许用户从 PDF 文件的特定页面中获取图片信息。获取后,使用 PdfImageInfo.Image.Save() 方法,即可将图片保存为图片文件。
以下是从 PDF 文档中提取图片的具体步骤:
- 创建 PdfDocument 对象。
- 使用 PdfDocument.LoadFromFile() 方法加载 PDF 文档。
- 创建 PdfImageHelper 对象。
- 遍历文档中的页面。
- 使用 PdfImageHelper.GetImagesInfo(page: PdfPageBase) 方法获取页面中的图片信息。
- 遍历获取结果,使用 PdfImageInfo.Image.Save() 方法将每张图片保存为图片文件。
- Python
from spire.pdf.common import *
from spire.pdf import *
# 创建 PdfDocument 对象
doc = PdfDocument()
# 加载 PDF 文档
doc.LoadFromFile("示例文档.pdf")
# 创建 PdfImageHelper 对象
image_helper = PdfImageHelper()
image_count = 1
# 遍历文档中的页面
for i in range(doc.Pages.Count):
# 获取当前页面中的图片信息
images_info = image_helper.GetImagesInfo(doc.Pages[i])
# 获取图片并将其保存为图片文件
for j in range(len(images_info)):
image_info = images_info[j]
output_file = f"C:/Users/Administrator/Desktop/图片/image{image_count}.png"
image_info.Image.Save(output_file)
image_count += 1
doc.Close()
申请临时 License
如果您希望删除结果文档中的评估消息,或者摆脱功能限制,请该Email地址已收到反垃圾邮件插件保护。要显示它您需要在浏览器中启用JavaScript。获取有效期 30 天的临时许可证。