要使用C#從docx文件中提取信息,可以使用DocX
庫
首先,安裝DocX
庫。在Visual Studio中打開項目,然后轉到“工具”>“NuGet包管理器”>“管理解決方案的NuGet包”。在打開的窗口中,點擊“瀏覽”并搜索“DocX”。找到名為DocX
的包,作者是“Xceed Software Inc Community”,然后選擇你的項目并點擊“安裝”。
在你的C#代碼中,引入必要的命名空間:
using System;
using System.IO;
using Novacode;
public void ExtractDocxInfo(string filePath)
{
// 創建一個DocX對象并加載文檔
using (DocX document = DocX.Load(filePath))
{
// 獲取文檔內容
string content = document.Text;
Console.WriteLine("Content:");
Console.WriteLine(content);
// 獲取文檔的基本屬性(元數據)
Console.WriteLine("\nProperties:");
Console.WriteLine($"Title: {document.Properties.Title}");
Console.WriteLine($"Author: {document.Properties.Author}");
Console.WriteLine($"Subject: {document.Properties.Subject}");
Console.WriteLine($"Keywords: {document.Properties.Keywords}");
Console.WriteLine($"Comments: {document.Properties.Comments}");
}
}
ExtractDocxInfo
函數,傳入docx文件的路徑:string filePath = @"C:\path\to\your\docx\file.docx";
ExtractDocxInfo(filePath);
這樣,你就可以使用C#和DocX
庫從docx文件中提取文本內容和元數據了。注意,這個示例僅適用于.NET Framework和.NET Core。如果你使用的是.NET 5或更高版本,請考慮使用其他庫,如OpenXML
或Aspose.Words
。