中文字幕av专区_日韩电影在线播放_精品国产精品久久一区免费式_av在线免费观看网站

溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

Python如何讀取大文件的"坑“與內存占用檢測

發布時間:2020-10-30 10:46:33 來源:億速云 閱讀:138 作者:小新 欄目:編程語言

這篇文章主要介紹Python如何讀取大文件的"坑“與內存占用檢測,文中介紹的非常詳細,具有一定的參考價值,感興趣的小伙伴們一定要看完!

python讀寫文件的api都很簡單,一不留神就容易踩”坑“。下面記錄一次踩坑歷程,并且給了一些總結,希望到大家在使用python的過程之中,能夠避免一些可能產生隱患的代碼。

1.read()與readlines()

隨手搜索python讀寫文件的教程,很經常看到read()與readlines()這對函數。所以我們會常常看到如下代碼:

with open(file_path, 'rb') as f:
    sha1Obj.update(f.read())
or
with open(file_path, 'rb') as f:
    for line in f.readlines():
        print(line)

這對方法在讀取小文件時確實不會產生什么異常,但是一旦讀取大文件,很容易會產生MemoryError,也就是內存溢出的問題。

我們首先來看看這兩個方法:

當默認參數size=-1時,read方法會讀取直到EOF,當文件大小大于可用內存時,自然會發生內存溢出的錯誤。

read方法

read([size])方法從文件當前位置起讀取size個字節,若無參數size,則表示讀取至文件結束為止,它范圍為字符串對象

同樣的,readlines會構造一個list。list而不是iter,所以所有的內容都會保存在內存之上,同樣也會發生內存溢出的錯誤。

readlines方法

該方法每次讀出一行內容,所以,讀取時占用內存小,比較適合大文件,該方法返回一個字符串對象。

2.正確的用法

在實際運行的系統之中如果寫出上述代碼是十分危險的,這種”坑“十分隱蔽。所以接下來我們來了解一下正確用,正確的用法也很簡單,依照API之中對函數的描述來進行對應的編碼就OK了:

如果是二進制文件推薦用如下這種寫法,可以自己指定緩沖區有多少byte。顯然緩沖區越大,讀取速度越快。

with open(file_path, 'rb') as f:
    while True:
        buf = f.read(1024)
        if buf:    
            sha1Obj.update(buf)
        else:
            break

而如果是文本文件,則可以用readline方法或直接迭代文件(python這里封裝了一個語法糖,二者的內生邏輯一致,不過顯然迭代文件的寫法更pythonic )每次讀取一行,效率是比較低的。筆者簡單測試了一下,在3G文件之下,大概性能和前者差了20%.

with open(file_path, 'rb') as f:
    while True:
        line = f.readline()
        if buf:    
            print(line)
        else:
            break
with open(file_path, 'rb') as f:
    for line in f:
        print(line)

3.內存檢測工具的介紹

對于python代碼的內存占用問題,對于代碼進行內存監控十分必要。這里筆者這里推薦兩個小工具來檢測python代碼的內存占用。

首先先用pip安裝memory_profiler

pip install memory_profiler

memory_profiler是利用python的裝飾器工作的,所以我們需要在進行測試的函數上添加裝飾器

from hashlib import sha1
import sys
@profile
def my_func():
    sha1Obj = sha1()
    with open(sys.argv[1], 'rb') as f:
        while True:
            buf = f.read(10 * 1024 * 1024)
            if buf:
                sha1Obj.update(buf)
            else:
                break
    print(sha1Obj.hexdigest())
if __name__ == '__main__':
    my_func()

guppy

依樣畫葫蘆,仍然是通過pip先安裝guppy

pip install guppy

之后可以在代碼之中利用guppy直接打印出對應各種python類型(list、tuple、dict等)分別創建了多少對象,占用了多少內存。

from guppy import hpy
import sys
def my_func():
    mem = hpy()
    with open(sys.argv[1], 'rb') as f:
        while True:
            buf = f.read(10 * 1024 * 1024)
            if buf:
                print(mem.heap())
            else:
                break

通過上述兩種工具guppy與memory_profiler可以很好地來監控python代碼運行時的內存占用問題。

以上是Python如何讀取大文件的"坑“與內存占用檢測的所有內容,感謝各位的閱讀!希望分享的內容對大家有幫助,更多相關知識,歡迎關注億速云行業資訊頻道!

向AI問一下細節

免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

AI

利川市| 资中县| 荣成市| 大丰市| 裕民县| 塔城市| 台湾省| 密云县| 类乌齐县| 凤翔县| 肥城市| 宝清县| 吴堡县| 临高县| 无锡市| 环江| 黑河市| 文山县| 尚志市| 阳曲县| 花垣县| 双江| 三门县| 中山市| 雷山县| 堆龙德庆县| 瑞金市| 金溪县| 阿拉善左旗| 武夷山市| 福州市| 扶余县| 宜黄县| 九台市| 南皮县| 大竹县| 南雄市| 巍山| 汶上县| 永胜县| 铜陵市|