您好,登錄后才能下訂單哦!
1、引言
通過參考相關博客對hdf5格式簡要介紹。
hdf5在存儲的是支持壓縮,使用的方式是blosc,這個是速度最快的也是pandas默認支持的。 使用壓縮可以提磁盤利用率,節省空間。 開啟壓縮也沒有什么劣勢,只會慢一點點。 壓縮在小數據量的時候優勢不明顯,數據量大了才有優勢。 同時發現hdf讀取文件的時候只能是一次寫,寫的時候可以append,可以put,但是寫完成了之后關閉文件,就不能再寫了, 會覆蓋。
另外,為什么單獨說pandas,主要因為本人目前對于h6py這個包的理解不是很深入,不知道如果使用該包存pd.DataFrame格式的文件,不像numpy格式文件可以直接存儲,因此本人只能依賴pandas自帶一些函數進行處理。
2、寫入文件
使用函數:pd.HDFStore
import numpy as np import pandas as pd ####生成9000,0000條數據,9千萬條 a = np.random.standard_normal((90000000,4)) b = pd.DataFrame(a) ####普通格式存儲: h6 = pd.HDFStore('/data/stock/test_s.h6','w') h6['data'] = b h6.close() ####壓縮格式存儲 h6 = pd.HDFStore('/data/stock/test_c4.h6','w', complevel=4, complib='blosc') h6['data'] = b h6.close()
3、讀取文件
使用函數:pd.read_hdf
參數:文件名,key
data=pd.read_hdf('/data/stock/test_c4.h6',key='data')
以上這篇對pandas寫入讀取h6文件的方法詳解就是小編分享給大家的全部內容了,希望能給大家一個參考,也希望大家多多支持億速云。
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。