中文字幕av专区_日韩电影在线播放_精品国产精品久久一区免费式_av在线免费观看网站

溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

python實現從PDF中提取數據

發布時間:2020-11-02 15:39:26 來源:億速云 閱讀:174 作者:Leah 欄目:開發技術

python實現從PDF中提取數據?很多新手對此不是很清楚,為了幫助大家解決這個難題,下面小編將為大家詳細講解,有這方面需求的人可以來學習下,希望你能有所收獲。

使用Python從PDF文件中提取一個表格

a)將表復制到Excel并保存為table_1_raw.csv

python實現從PDF中提取數據

數據以一維格式存儲,必須進行重塑、清理和轉換。

b)導入必要的庫

import pandas as pd
import numpy as np

c)導入原始數據,重新定義數據

df=pd.read_csv("table_1_raw.csv", header=None)
df.values.shape
df2=pd.DataFrame(df.values.reshape(25,10))
column_names=df2[0:1].values[0]
df3=df2[1:]
df3.columns = df2[0:1].values[0]
df3.head()

python實現從PDF中提取數據

d)使用字符串處理工具進行數據糾纏

我們從上面的表格中注意到,x5、x6和x7列是用百分比表示的,所以我們需要去掉percent(%)符號:

df4['x5']=list(map(lambda x: x[:-1], df4['x5'].values))
df4['x6']=list(map(lambda x: x[:-1], df4['x6'].values))
df4['x7']=list(map(lambda x: x[:-1], df4['x7'].values))

e)將數據轉換為數字形式

我們注意到列x5、x6和x7的列值數據類型為string,因此我們需要將它們轉換為數值數據,如下所示:

df4['x5']=[float(x) for x in df4['x5'].values]
df4['x6']=[float(x) for x in df4['x6'].values]
df4['x7']=[float(x) for x in df4['x7'].values]

f)查看轉換數據的最終形式

df4.head(n=5)

python實現從PDF中提取數據

g)導出最終數據到一個csv文件

df4.to_csv('table_1_final.csv',index=False)

看完上述內容是否對您有幫助呢?如果還想對相關知識有進一步的了解或閱讀更多相關文章,請關注億速云行業資訊頻道,感謝您對億速云的支持。

向AI問一下細節

免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

AI

新干县| 富平县| 贺州市| 隆化县| 开封县| 汉川市| 黔江区| 全南县| 牙克石市| 临湘市| 砀山县| 巴林左旗| 怀集县| 扶风县| 阜城县| 营口市| 宁化县| 中江县| 惠州市| 卢氏县| 衡南县| 郧西县| 金坛市| 建平县| 榆社县| 仁布县| 鄯善县| 常德市| 宁津县| 大邑县| 汶上县| 南投市| 军事| 郑州市| 延边| 宜兰县| 潜山县| 方山县| 孝昌县| 镇原县| 和政县|