numpy的np.fromfile會出現如下的問題,只能一次性讀取文件的內容,不能追加讀取,連續兩次的np.fromfile讀到的東西一樣
如果數據文件太大(幾個G或以上)不能一次性全讀進去,需要追加讀取
而我希望讀到的donser1和donser2是連續的兩段
(實際使用時,比如說讀取的文件是二進制數據文件,每一塊文件都包括包頭+數據,希望將這兩塊分開獲取,然后再做進一步處理)
代碼:
import numpy as np length=2500 plt_arr=np.linspace(0.0, 0.0, length*2048*16) start=0 tail_size = 40 #40bit num_size=16*1024-40 # 16kb -40b def one_file(f, loop): global tail_size, num_size while loop: num = np.fromfile(f, dtype=np.int16, count=num_size) tail=np.fromfile(f, dtype=np.int16, count=tail_size) loop=loop-1 yield num, tail def main(): file_path="E://1-gl300c.r3f" global length, plt_arr, start loop=length with open(file_path, 'rb') as f: for num, tail in one_file(f, loop): plt_arr[start:start+len(num)]=num[:] start=start+len(num) return plt_arr[0:start] if __name__ == "__main__": donser=main() print(donser)
假設數據文件的格式是 數據+包尾,plt_arr存儲全部的數據部分,包尾丟棄,該方法實現了多次連續追加讀取數據文件的內容
plt_arr最好使用先開好大小再逐次賦值,親測append方法和concatenate方法時間效率極差
或者不用numpy也可以,代碼:
def read_in_chunks(filePath, chunk_size=16*1024): file_object = open(filePath,'rb') count=0 while True: chunk_data = file_object.read(chunk_size) if not chunk_data: break yield chunk_data[0:16*1024-28] if __name__ == "__main__": num=0 for chunk in read_in_chunks("E:\\1-gl300c.r3f"): #process(chunk) # <do something with chunk> name=str(num)+".bin" num=num+1 if num<303000: continue if num>308001: break file_object = open(name, 'wb') file_object.write(chunk) file_object.close( )
numpy.fromfile的其他方法可以參考這個