HTML (Hypertext Markup Language),即超文本标记语言,是构成大多数网页和在线应用程序的一种计算机语言。通过使用 Spire.PDF for Java 可实现将 PDF 文件转换成 HTML 文件,并且,在选择 HTML 保存方式时,可调用 PdfDocument.saveToFile(String filename, FileFormat fileFormat) 方法保存为 HTML 到本地指定路径,也可以通过下文中的方法将转换后的 HTML 保存到流。下面将详细介绍如何实现转换并保存到流。
安装 Spire.PDF for Java
首先,您需要在 Java 程序中添加 Spire.Pdf.jar 文件作为依赖项。JAR 文件可以从此链接下载。 如果您使用 Maven,则可以将以下代码添加到项目的 pom.xml 文件中,从而在应用程序中导入 JAR 文件。
<repositories>
<repository>
<id>com.e-iceblue</id>
<name>e-iceblue</name>
<url>https://repo.e-iceblue.cn/repository/maven-public/</url>
</repository>
</repositories>
<dependencies>
<dependency>
<groupId>e-iceblue</groupId>
<artifactId>spire.pdf</artifactId>
<version>10.10.7</version>
</dependency>
</dependencies>
将 PDF 转为 HTML 保存到流
调用 Spire.PDF for Java 提供的方法实现转换时,可设置相关转换属性,如:是否嵌入 SVG、是否嵌入图片等。下面是主要代码步骤:
- 创建 PdfDocument 类的对象,并通过 PdfDocument.loadFromFile(String filename) 方法加载PDF文档。
- 通过 PdfDocument. getConvertOptions().setPdfToHtmlOptions(boolean useEmbeddeSvg, boolean useEmbeddeImg) 方法设置转换为 HTML 格式时的相关转换属性。
- 通过 PdfDocument.saveToStream(OutputStream stream, FileFormat format) 方法转换成 HTML 时保存到流。
- Java
import com.spire.pdf.*;
import java.io.File;
import java.io.FileNotFoundException;
import java.io.FileOutputStream;
import java.io.OutputStream;
public class SaveToStream {
public static void main(String[] args) throws FileNotFoundException {
//加载PDF文档
PdfDocument pdf = new PdfDocument();
pdf.loadFromFile("sample.pdf");
//设置useEmbeddedSvg和 useEmbeddedImg布尔值为true
pdf.getConvertOptions().setPdfToHtmlOptions(true,true);
//保存到流
File outFile = new File("toHTML.html");
OutputStream outputStream = new FileOutputStream(outFile);
pdf.saveToStream(outputStream, FileFormat.HTML);
pdf.close();
}
}
生成HTML文件效果如图:
申请临时 License
如果您希望删除结果文档中的评估消息,或者摆脱功能限制,请 该Email地址已收到反垃圾邮件插件保护。要显示它您需要在浏览器中启用JavaScript。 获取有效期 30 天的临时许可证。