對於超大規模的csv文件,我們無法一下將其讀入內存當中,只能分塊一部分一部分的進行讀取;
首先進行如下操作:
import pandas as pd reader = pd.read_csv('data/servicelogs', iterator=True)
分塊,每一塊是一個chunk,之后將chunk進行拼接;
loop = True chunkSize = 100000 chunks = [] while loop: try: chunk = reader.get_chunk(chunkSize) chunks.append(chunk) except StopIteration: loop = False print "Iteration is stopped." df = pd.concat(chunks, ignore_index=True)