首先:使用ultra edit 打開獲取txt行數;
然后:確定開啟的線程數量,計算每個線程讀取txt的行數設置為n_size
import time, threading import pandas as pd from itertools import islice ''' Reader類,繼承threading.Thread @__init__方法初始化 @run方法實現了讀文件的操作 ''' class Reader(threading.Thread): def __init__(self, file_name, n, nlong): super(Reader, self).__init__() self.file_name = file_name self.n = n self.nlong = nlong self.data = pd.DataFrame(columns=[ '發展渠道編碼(全渠道)','發展渠道名稱','客戶id(脫敏后的移動用戶識別碼)','年齡','性別','產品名稱(201907)','檔位(201907)','出賬收入(201907)','產品名稱(201908)','檔位(201908)','出賬收入(201908)','產品名稱(201909)','檔位(201909)','出賬收入(201909)','產品名稱(201910)','檔位(201910)','出賬收入(201910)','產品名稱(201911)','檔位(201911)','出賬收入(201911)','產品名稱(201912)','檔位(201912)','出賬收入(201912)','入網時間','離網時間 取唯一標識','2019年7月','工作地的經緯度網格','2019年7月居住地的經緯度網格','2019年8月工作地的經緯度網格','2019年8月居住地的經緯度網格','2019年9月工作地的經緯度網格','2019年9月居住地的經緯度網格','2019年10月工作地的經緯度網格','2019年10月居住地的經緯度網格','2019年11月工作地的經緯度網格','2019年11月居住地的經緯度網格','2019年12月工作地的經緯度網格','2019年12月居住地的經緯度網格','2019年11月每個周六10:00-15:00出現頻次最多位置的經緯度網格','2019年11月每個周日10:00-15:00出現頻次最多位置的經緯度網格','2019年12月每個周六10:00-15:00出現頻次最多位置的經緯度網格','2019年12月每個周日10:00-15:00出現頻次最多位置的經緯度網格']) def run(self): for line in islice(open(self.file_name,'r',encoding='utf-8'),self.n,self.nlong): print(self.n) self.data.loc[self.n] = line.split('|') self.n = self.n+1 return self.data if __name__ == '__main__': file_name = r'E:\work\渠道規划\2020年聯通營業廳規划\甲方數據\移網話單數據.rar,北京漁網-面.rar,字段名稱.xlsx\移網話單數據\YYT_ZHB1.txt' #線程數量 thread_num = 500 #起始時間 start_time = time.clock() #txt按行切分n_start 起始行,n_end 終止行,n_size 切分行數 n_size= 33101 n_start = [x*n_size for x in range(thread_num)] n_end = [(x+1)*n_size for x in range(thread_num)] t = [] #生成線程 for i in range(thread_num): t.append(Reader(file_name, n_start[i],n_end[i])) #開啟線程 for i in range(thread_num): t[i].start() for i in range(thread_num): t[i].join() #結束時間 end_time = time.clock() print ("Cost time is %f" % (end_time - start_time)) data = pd.DataFrame(columns=[ '發展渠道編碼(全渠道)','發展渠道名稱','客戶id(脫敏后的移動用戶識別碼)','年齡','性別','產品名稱(201907)','檔位(201907)','出賬收入(201907)','產品名稱(201908)','檔位(201908)','出賬收入(201908)','產品名稱(201909)','檔位(201909)','出賬收入(201909)','產品名稱(201910)','檔位(201910)','出賬收入(201910)','產品名稱(201911)','檔位(201911)','出賬收入(201911)','產品名稱(201912)','檔位(201912)','出賬收入(201912)','入網時間','離網時間 取唯一標識','2019年7月','工作地的經緯度網格','2019年7月居住地的經緯度網格','2019年8月工作地的經緯度網格','2019年8月居住地的經緯度網格','2019年9月工作地的經緯度網格','2019年9月居住地的經緯度網格','2019年10月工作地的經緯度網格','2019年10月居住地的經緯度網格','2019年11月工作地的經緯度網格','2019年11月居住地的經緯度網格','2019年12月工作地的經緯度網格','2019年12月居住地的經緯度網格','2019年11月每個周六10:00-15:00出現頻次最多位置的經緯度網格','2019年11月每個周日10:00-15:00出現頻次最多位置的經緯度網格','2019年12月每個周六10:00-15:00出現頻次最多位置的經緯度網格','2019年12月每個周日10:00-15:00出現頻次最多位置的經緯度網格']) for i in t: data = data.append(i.data)