这篇文章将介绍如何使用Spire.Doc组件读取Word文档的文本内容。
Spire.Doc提供了两种方法来读取Word文档的文本内容,一种是通过Document.GetText方法直接读取文档中的所有文本,另一种是遍历文档中的节和其中的段落,然后获取段落的文本。下面将逐一介绍这两种方法。
Word文档截图:
直接获取所有文本
C#
//加载Word文档
Document doc = new Document();
document.LoadFromFile(@"测试文档.docx");
//使用GetText方法获取文档中的所有文本
string s = doc.GetText();
File.WriteAllText("文本1.txt", s.ToString());
VB.NET
'加载Word文档
Dim doc As Document = New Document
document.LoadFromFile("测试文档.docx")
'使用GetText方法获取文档中的所有文本
Dim s As String = doc.GetText
File.WriteAllText("文本1.txt", s.ToString)
遍历段落获取文本
C#
//加载Word文档
Document document = new Document();
document.LoadFromFile(@"测试文档.docx");
StringBuilder sb = new StringBuilder();
//遍历节和段落,获取段落中的文本
foreach (Section section in document.Sections)
{
foreach (Paragraph paragraph in section.Paragraphs)
{
sb.AppendLine(paragraph.Text);
}
}
File.WriteAllText("文本2.txt", sb.ToString());
VB.NET
'加载Word文档
Dim document As Document = New Document
document.LoadFromFile("测试文档.docx")
Dim sb As StringBuilder = New StringBuilder
'遍历节和段落,获取段落中的文本
For Each section As Section In document.Sections
For Each paragraph As Paragraph In section.Paragraphs
sb.AppendLine(paragraph.Text)
Next
Next
File.WriteAllText("文本2.txt", sb.ToString)