有时我们可能需要获取PDF页面中某个区域内的文本而不是全部的文本。本文将介绍如何使用Spire.PDF组件提取PDF页面中指定矩形区域内的文本。
以下是我们所使用的示例文档截图,红色矩形区域是即将提取文本的区域。
C#
//创建PdfDocument实例
PdfDocument pdf = new PdfDocument();
//加载PDF文档
pdf.LoadFromFile("Input.pdf");
//获取第一页
PdfPageBase page = pdf.Pages[0];
//从第一页的指定矩形区域内提取文本
string text = page.ExtractText(new RectangleF(50, 50, 500, 100) );
//将文本写入.txt文件
StringBuilder sb = new StringBuilder();
sb.AppendLine(text);
File.WriteAllText("Extract.txt", sb.ToString());
VB.NET
'创建PdfDocument实例
Dim pdf As New PdfDocument()
'加载PDF文档
pdf.LoadFromFile("Input.pdf")
'获取第一页
Dim page As PdfPageBase = pdf.Pages(0)
'从第一页的指定矩形区域内提取文本
Dim text As String = page.ExtractText(New RectangleF(50, 50, 500, 100))
'将文本写入.txt文件
Dim sb As New StringBuilder()
sb.AppendLine(text)
File.WriteAllText("Extract.txt", sb.ToString())
效果图: