pandas 使用chunkSize 讀取大文件

本文轉載自查看原文 2019-06-26 19:25 2307 python/ 腳本

import pandas as pd
import numpy as np

import chardet

#檢測文件編碼
with open(r'D:\test.txt', 'rb') as fo:
　　encode = chardet.detect(fo.readline())['encoding']
print(encode)

#建議如果檢測出編碼為ascii 則采用utf-8編碼

reader = pd.read_csv(r'D:\test.txt', iterator=True, encoding=encode)

loop = True
chunkSize = 10000# 每次讀取的行數
while loop:
　　try:
　　　　chunk = reader.get_chunk(chunkSize)# type(chunk) is pd.DataFrame

　　　　#需要注意的是文件的列名
　　　　# do something
　　except StopIteration:
　　　　loop = False
　　　　print("Iteration is stopped.")

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 Python學習筆記：pandas.read_csv分塊讀取大文件(chunksize、iterator=True) python pandas使用chunksize異步拆分固定行數的文件 python 讀取文件使用chunksize后逐塊迭代操作如何使用Python讀取大文件使用python讀取大文件 pandas read_csv讀取大文件的Memory error問題 pandas讀取大文件時memoryerror的解決辦法使用Pandas讀取CSV文件 Java使用ByteBuffer讀取大文件 pandas.read_sql_query()讀取數據庫數據用chunksize的坑