強悍的Python讀取大文件的解決方案


這是一道著名的 Python 面試題,考察的問題是,Python 讀取大文件和一般規模的文件時的區別,也即哪些接口不適合讀取大文件。

1. read() 接口的問題

f =open(filename, 'rb')

f.read()

我們來讀取 1 個 nginx 的日至文件,規模為 3Gb 大小。read() 方法執行的操作,是一次性全部讀入內存,顯然會造成:

MemoryError

...

也即會發生內存溢出。

2. 解決方案:轉換接口

(1)readlines() :讀取全部的行,構成一個 list,實踐表明還是會造成內存的問題;

forline inf.reanlines():

  ...

(2)readline():每次讀取一行,

 

 

 

(3)read(1024):重載,指定每次讀取的長度

 

 

 

3. 真正 Pythonic 的方法

真正 Pythonci 的方法,使用 with 結構:

 

 

 

對可迭代對象 f,進行迭代遍歷:for line in f,會自動地使用緩沖IO(buffered IO)以及內存管理,而不必擔心任何大文件的問題。

There should be one – and preferably only one – obvious way to do it.



作者:Python很簡單
鏈接:https://www.jianshu.com/p/560ff3adfee3


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM