您好,登錄后才能下訂單哦!
這期內容當中小編將會給大家帶來有關Python中怎么對docx文件進行讀寫操作,文章內容豐富且以專業的角度為大家分析和敘述,閱讀完這篇文章希望大家可以有所收獲。
演示文本
為了方便理解,我們以 python-docx.docx 文件為例,演示如何使用Python 提取其中的文本數據和表格數據,并開發自定義函數以字典的形式提取內容,python-docx.docx文件內容如下:
在使用python-docx 讀取word文檔中文本之前,我們先了解下python-docx 模塊的幾個概念。
Document 對象,表示一個Word文檔。
Paragraph 對象,表示Word文檔中的一個段落。
Paragraph 對象的text屬性,表示段落中的文本內容。
提取docx文件中文本信息
使用python-docx 提取docx文件中文本數據,Python實現代碼如下:
如上,我們將python-docx.docx 文件中的文本信息,按行提取出來,存儲到字典中,字典的Key為行號,Value為文本信息,執行上述代碼,輸出結果如下:
提取docx文件中表格數據
使用python-docx 提取docx文件中表格數據,Python實現代碼如下:
如上,我們將python-docx.docx 文件中的表單信息,按行提取出來,存儲到列表中,列表每個元素為一個表格的數據,數據結構為字典,執行上述代碼輸出結果如下:
寫入數據到docx文件中
我們同樣可以利用python-docx 模塊,實現docx文件的數據寫入,如標題、字號、引用、列表、圖片插入等等。由于如下代碼注釋中說明比較詳細,此處不做過多介紹,代碼如下:
執行上述代碼,寫入數據保存至testops—docx.docx 文件中,內容如下:
提取包含指定關鍵字的文本
我們基于上述自定義封裝函數 extract_text、extract_form,結合re 模塊,就可以實現提取包含關鍵字的文本內容,代碼實現如下:
如上,我們實現了提取docx 文本中包含指定內容的文本信息,并輸出該內容所在行,執行上述代碼,輸出結果為:
上述就是小編為大家分享的Python中怎么對docx文件進行讀寫操作了,如果剛好有類似的疑惑,不妨參照上述分析進行理解。如果想知道更多相關知識,歡迎關注億速云行業資訊頻道。
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。