激情五月婷婷综合,亚洲国产精品日韩av不卡在线,免费久草

看代碼吧~

				?

									import gc

									for x in list(locals().keys())[:]:

									    del locals()[x]

									# del all_s_x, ae, ae_split, x_ticks, split

									gc.collect()

補充：python讀取大文件的"坑“與內(nèi)存占用檢測

python讀寫文件的api都很簡單，一不留神就容易踩”坑“。筆者記錄一次踩坑歷程，并且給了一些總結(jié)，希望到大家在使用python的過程之中，能夠避免一些可能產(chǎn)生隱患的代碼。

1.read()與readlines()：

隨手搜索python讀寫文件的教程，很經(jīng)常看到read()與readlines()這對函數(shù)。所以我們會常常看到如下代碼：

				?

									with open(file_path, 'rb') as f:

									    sha1obj.update(f.read())

				?

									with open(file_path, 'rb') as f:

									    for line in f.readlines():

									        print(line)

這對方法在讀取小文件時確實不會產(chǎn)生什么異常，但是一旦讀取大文件，很容易會產(chǎn)生memoryerror，也就是內(nèi)存溢出的問題。

why memory error？

我們首先來看看這兩個方法：

當(dāng)默認參數(shù)size=-1時，read方法會讀取直到eof，當(dāng)文件大小大于可用內(nèi)存時，自然會發(fā)生內(nèi)存溢出的錯誤。

Python 循環(huán)讀取數(shù)據(jù)內(nèi)存不足的解決方案

同樣的，readlines會構(gòu)造一個list。list而不是iter，所以所有的內(nèi)容都會保存在內(nèi)存之上，同樣也會發(fā)生內(nèi)存溢出的錯誤。

Python 循環(huán)讀取數(shù)據(jù)內(nèi)存不足的解決方案

2.正確的用法：

在實際運行的系統(tǒng)之中如果寫出上述代碼是十分危險的，這種”坑“十分隱蔽。所以接下來我們來了解一下正確用，正確的用法也很簡單，依照api之中對函數(shù)的描述來進行對應(yīng)的編碼就ok了：

如果是二進制文件推薦用如下這種寫法，可以自己指定緩沖區(qū)有多少byte。顯然緩沖區(qū)越大，讀取速度越快。

				?

									with open(file_path, 'rb') as f:

									    while true:

									        buf = f.read(1024)

									        if buf:    

									            sha1obj.update(buf)

									        else:

									            break

而如果是文本文件，則可以用readline方法或直接迭代文件（python這里封裝了一個語法糖，二者的內(nèi)生邏輯一致，不過顯然迭代文件的寫法更pythonic ）每次讀取一行，效率是比較低的。筆者簡單測試了一下，在3g文件之下，大概性能和前者差了20%.

				?

									with open(file_path, 'rb') as f:

									    while true:

									        line = f.readline()

									        if buf:    

									            print(line)

									        else:

									            break

									with open(file_path, 'rb') as f:

									    for line in f:

									        print(line)

3.內(nèi)存檢測工具的介紹：

對于python代碼的內(nèi)存占用問題，對于代碼進行內(nèi)存監(jiān)控十分必要。這里筆者這里推薦兩個小工具來檢測python代碼的內(nèi)存占用。

				?

									memory_profiler

首先先用pip安裝memory_profiler

				?

									pip install memory_profiler

memory_profiler是利用python的裝飾器工作的，所以我們需要在進行測試的函數(shù)上添加裝飾器。

				?

									from hashlib import sha1

									import sys

									@profile

									def my_func():

									    sha1obj = sha1()

									    with open(sys.argv[1], 'rb') as f:

									        while true:

									            buf = f.read(10 * 1024 * 1024)

									            if buf:

									                sha1obj.update(buf)

									            else:

									                break

									    print(sha1obj.hexdigest())

									if __name__ == '__main__':

									    my_func()

之后在運行代碼時加上** -m memory_profiler**

就可以了解函數(shù)每一步代碼的內(nèi)存占用了

Python 循環(huán)讀取數(shù)據(jù)內(nèi)存不足的解決方案

guppy

依樣畫葫蘆，仍然是通過pip先安裝guppy

				?

									pip install guppy

之后可以在代碼之中利用guppy直接打印出對應(yīng)各種python類型（list、tuple、dict等）分別創(chuàng)建了多少對象，占用了多少內(nèi)存。

				?

									from guppy import hpy

									import sys

									def my_func():

									    mem = hpy()

									    with open(sys.argv[1], 'rb') as f:

									        while true:

									            buf = f.read(10 * 1024 * 1024)

									            if buf:

									                print(mem.heap())

									            else:

									                break