Pandas處理超大規模數據

本文轉載自查看原文 2019-06-23 13:06 716 機器學習/ Python

對於超大規模的csv文件，我們無法一下將其讀入內存當中，只能分塊一部分一部分的進行讀取；

首先進行如下操作：

import pandas as pd reader = pd.read_csv('data/servicelogs', iterator=True)

分塊，每一塊是一個chunk，之后將chunk進行拼接；

loop = True chunkSize = 100000 chunks = [] while loop: try: chunk = reader.get_chunk(chunkSize) chunks.append(chunk) except StopIteration: loop = False print "Iteration is stopped." df = pd.concat(chunks, ignore_index=True)

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 Rancher 和知乎超大規模多集群管理聯合實踐 [轉]BloomFilter——大規模數據處理利器 mysql數據庫大規模數據讀寫並行時導致的鎖表問題 Spark MLlib 之大規模數據集的相似度計算原理探索 python庫--flashtext--大規模數據清洗利器通過Z-Order技術加速Hudi大規模數據集分析方案 es之路由：進一步提高Elasticsearch的檢索效率（適用大規模數據集） python當中如何處理大規模csv文件 MPP(大規模並行處理) 多大規模的數據才值得用大數據的方式來處理？