中文字幕av专区_日韩电影在线播放_精品国产精品久久一区免费式_av在线免费观看网站

溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

利用python將pdf輸出為txt的實例講解

發布時間:2020-10-24 12:45:08 來源:腳本之家 閱讀:156 作者:n不正 欄目:開發技術

一個禮拜前一個同學問我這個事情,由于之前在參加華為的比賽,所以賽后看了一下,據說需要用到pdfminer這個包。于是安裝了一下,安裝過程很簡單:

sudo pip install pdfminer;

中間也沒有任何的報錯。至于如何調用,本人也沒有很好的研究過pdfminer這個庫,于是開始了百度……

官方文檔:http://www.unixuser.org/~euske/python/pdfminer/index.html

完全使用python編寫。 (適用于2.4或更新版本)

解析,分析,并轉換成PDF文檔。

PDF-1.7規范的支持。 (幾乎)

中日韓語言和垂直書寫腳本支持。

各種字體類型(Type1、TrueType、Type3,和CID)的支持。

基本加密(RC4)的支持。

PDF與HTML轉換。

綱要(TOC)的提取。

標簽內容提取。

通過分組文本塊重建原始的布局。

一些基本的類

PDFParser:從一個文件中獲取數據

PDFDocument:保存獲取的數據,和PDFParser是相互關聯的

PDFPageInterpreter處理頁面內容

PDFDevice將其翻譯成你需要的格式

PDFResourceManager用于存儲共享資源,如字體或圖像。

利用python將pdf輸出為txt的實例講解

簡單的實現

讀取test.pdf輸出為output.txt:

# -*- coding: utf-8 -*-  
from pdfminer.pdfparser import PDFParser 
from pdfminer.pdfdocument import PDFDocument 
from pdfminer.pdfpage import PDFPage 
from pdfminer.pdfpage import PDFTextExtractionNotAllowed 
from pdfminer.pdfinterp import PDFResourceManager 
from pdfminer.pdfinterp import PDFPageInterpreter 
from pdfminer.pdfdevice import PDFDevice 
from pdfminer.layout import * 
from pdfminer.converter import PDFPageAggregator 
import os 
fp = open('test.pdf', 'rb') 
#來創建一個pdf文檔分析器 
parser = PDFParser(fp) 
#創建一個PDF文檔對象存儲文檔結構 
document = PDFDocument(parser) 
# 檢查文件是否允許文本提取 
if not document.is_extractable: 
 raise PDFTextExtractionNotAllowed 
else: 
 # 創建一個PDF資源管理器對象來存儲共賞資源 
 rsrcmgr=PDFResourceManager() 
 # 設定參數進行分析 
 laparams=LAParams() 
 # 創建一個PDF設備對象 
 # device=PDFDevice(rsrcmgr) 
 device=PDFPageAggregator(rsrcmgr,laparams=laparams) 
 # 創建一個PDF解釋器對象 
 interpreter=PDFPageInterpreter(rsrcmgr,device) 
 # 處理每一頁 
 for page in PDFPage.create_pages(document): 
  interpreter.process_page(page) 
  # 接受該頁面的LTPage對象 
  layout=device.get_result() 
  for x in layout: 
   if(isinstance(x,LTTextBoxHorizontal)): 
    with open('output.txt','a') as f: 
     f.write(x.get_text().encode('utf-8')+'\n') 

以上這篇利用python將pdf輸出為txt的實例講解就是小編分享給大家的全部內容了,希望能給大家一個參考,也希望大家多多支持億速云。

向AI問一下細節

免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

AI

达尔| 澄迈县| 太白县| 奉贤区| 靖江市| 互助| 辛集市| 怀来县| 石棉县| 淮南市| 道真| 白城市| 云南省| 乌拉特中旗| 台山市| 西昌市| 巴塘县| 上思县| 蕉岭县| 桃江县| 郯城县| 井冈山市| 临桂县| 潮州市| 常州市| 涞源县| 山丹县| 开阳县| 黄浦区| 宁城县| 青川县| 泰兴市| 江油市| 丹东市| 台江县| 吉安县| 澄城县| 包头市| 洪泽县| 绵阳市| 永川市|