pandas 使用chunkSize 讀取大文件


import pandas as pd
import numpy as np

import chardet

#檢測文件編碼
with open(r'D:\test.txt', 'rb') as fo:
  encode = chardet.detect(fo.readline())['encoding']
print(encode)

#建議如果檢測出編碼為ascii 則采用utf-8編碼

reader = pd.read_csv(r'D:\test.txt', iterator=True, encoding=encode)

loop = True
chunkSize = 10000# 每次讀取的行數
while loop:
  try:
    chunk = reader.get_chunk(chunkSize)# type(chunk) is pd.DataFrame

    #需要注意的是文件的列名
    # do something 
  except StopIteration:
    loop = False
    print("Iteration is stopped.")


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM