Pandas處理超大規模數據


對於超大規模的csv文件,我們無法一下將其讀入內存當中,只能分塊一部分一部分的進行讀取;

  首先進行如下操作:

import pandas as pd reader = pd.read_csv('data/servicelogs', iterator=True)

分塊,每一塊是一個chunk,之后將chunk進行拼接;
loop = True chunkSize = 100000 chunks = [] while loop: try: chunk = reader.get_chunk(chunkSize) chunks.append(chunk) except StopIteration: loop = False print "Iteration is stopped." df = pd.concat(chunks, ignore_index=True)


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM