PDF 文件格式可以让文档在不同设备之间的呈现保持一致。但是,如果需要将 PDF 文档放到网页上,最好将它们转换为 HTML 文件。通过这种方式,文档的所有内容都可以直接显示在浏览器中,无需下载文件。并且加载大型 PDF 文档需要很长时间,而 HTML 文件可以非常快速地在浏览器中呈现。另外,相较于 PDF 文件,搜索引擎更容易抓取 HTML 网页以获取信息,这将增加您的网站曝光率。本文将展示如何使用 Spire.PDF for Java 将 PDF 文档转换为 HTML 文件。
安装 Spire.PDF for Java
首先,您需要在 Java 程序中添加 Spire.Pdf.jar 文件作为依赖项。JAR 文件可以从此链接下载。 如果您使用 Maven,则可以将以下代码添加到项目的 pom.xml 文件中,从而在应用程序中导入 JAR 文件。
<repositories>
<repository>
<id>com.e-iceblue</id>
<name>e-iceblue</name>
<url>https://repo.e-iceblue.cn/repository/maven-public/</url>
</repository>
</repositories>
<dependencies>
<dependency>
<groupId>e-iceblue</groupId>
<artifactId>spire.pdf</artifactId>
<version>10.9.0</version>
</dependency>
</dependencies>
将 PDF 文档转换为 HTML 文件
使用 Spire.PDF for Java 提供的 PdfDocument.saveToFile(String filename, FileFormat.HTML) 方法,可以直接将 PDF 文档转换为 HTML 文件。具体步骤如下。
- 创建 PdfDocument 的对象。
- 使用 PdfDocument.loadFromFile() 方法加载 PDF 文件。
- 使用 PdfDocument.saveToFle() 方法将 PDF 文件另存为 HTML 文件。
- Java
import com.spire.pdf.*;
public class convertPDFToHTML {
public static void main(String[] args) {
//创建PdfDocument的对象
PdfDocument pdf = new PdfDocument();
//加载PDF文件
pdf.loadFromFile("示例文档.pdf");
//将PDF文件保存为HTML文件
pdf.saveToFile("PDFToHTML.html",FileFormat.HTML);
pdf.close();
}
}
将 PDF 文档转换为嵌入 SVG 的 HTML 文件
Spire.PDF for Java 还提供了 PdfDocument.getConvertOptions().setPdfToHtmlOptions(true) 方法,以便在转换时嵌入 SVG。将 PDF 文件转换为嵌入 SVG 的 HTML 文件的详细步骤如下。
- 创建 PdfDocument 的对象。
- 使用 PdfDocument.loadFromFile() 方法加载 PDF 文件。
- 使用 PdfDocument.getConvertOptions().setPdfToHtmlOptions(true) 方法启用嵌入 SVG。
- 使用 PdfDocument.saveToFle() 方法将 PDF 文件另存为 HTML 文件。
- Java
import com.spire.pdf.*;
public class convertPDFToHTMLEmbeddingSVG {
public static void main(String[] args) {
//创建PdfDocument的对象
PdfDocument doc = new PdfDocument();
//加载PDF文件
doc.loadFromFile("示例文档.pdf");
//设置嵌入SVG
doc.getConvertOptions().setPdfToHtmlOptions(true);
//将PDF文件另存为HTML文件
doc.saveToFile("PDFToHTMLEmbeddingSVG.html", FileFormat.HTML);
doc.close();
}
}
将 PDF 文档转换为 HTML 流
Spire.PDF for Java 还支持将 PDF 文档转换为 HTML 流。具体步骤如下。
- 创建 PdfDocument 的对象。
- 使用 PdfDocument.loadFromFile() 方法加载 PDF 文件。
- 使用 PdfDocument.saveToStream() 方法将 PDF 文件保存为 HTML 流。
- Java
import com.spire.pdf.*;
import java.io.*;
public class convertPDFToHTMLStream {
public static void main(String[] args) throws FileNotFoundException {
//创建PdfDocument的对象
PdfDocument pdf = new PdfDocument();
//加载PDF文件
pdf.loadFromFile("示例文档.pdf");
//将PDF文件另存为HTML流
File outFile = new File("PDFToHTMLStream.html");
OutputStream outputStream = new FileOutputStream(outFile);
pdf.saveToStream(outputStream, FileFormat.HTML);
pdf.close();
}
}
申请临时 License
如果您希望删除结果文档中的评估消息,或者摆脱功能限制,请该Email地址已收到反垃圾邮件插件保护。要显示它您需要在浏览器中启用JavaScript。获取有效期 30 天的临时许可证。