來自 Python科學計算 http://hyry.dip.jp/tech/book/page/scipy/numpy_file.html
NumPy提供了多種存取數組內容的文件操作函數。保存數組數據的文件可以是二進制格式或者文本格式。二進制格式的文件又分為NumPy專用的格式化二進制類型和無格式類型。
1.tofile和fromfile()存取二進制格式文件
使用數組對象的tofile()方法可以方便地將數組中的數據以二進制格式寫進文件。tofile()輸出的數據不保存數組形狀和元素類型等信息。因此用fromfile()函數讀回數據時需要用戶指定元素類型,並對數組的形狀進行適當的修改:
>>> a = np.arange(0,12) >>> a.shape = 3,4 >>> a array([[ 0, 1, 2, 3], [ 4, 5, 6, 7], [ 8, 9, 10, 11]]) >>> a.tofile("a.bin") >>> b = np.fromfile("a.bin", dtype=np.float) # 按照float類型讀入數據 >>> b # 讀入的數據是錯誤的 array([ 2.12199579e-314, 6.36598737e-314, 1.06099790e-313, 1.48539705e-313, 1.90979621e-313, 2.33419537e-313]) >>> a.dtype # 查看a的dtype dtype('int32') >>> b = np.fromfile("a.bin", dtype=np.int32) # 按照int32類型讀入數據 >>> b # 數據是一維的 array([ 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11]) >>> b.shape = 3, 4 # 按照a的shape修改b的shape >>> b # 這次終於正確了 array([[ 0, 1, 2, 3], [ 4, 5, 6, 7], [ 8, 9, 10, 11]])
從上面的例子可以看出,在讀入數據時需要正確設置dtype參數,並修改數組的shape屬性才能得到和原始數據一致的結果。無論數據的排列順序是C語言格式還是Fortran語言格式,tofile()都統一使用C語言格式輸出。此外如果指定了sep參數,則fromfile()和tofile()將以文本格式對數組進行輸入輸出。sep參數指定的是文本數據中數值的分隔符。
2.load()和save()存取NumPy專用的二進制格式文件
load()和save()用NumPy專用的二進制格式保存數據,它們會自動處理元素類型和形狀等信息:
>>> np.save("a.npy", a) >>> c = np.load( "a.npy" ) >>> c array([[ 0, 1, 2, 3], [ 4, 5, 6, 7], [ 8, 9, 10, 11]])
如果想將多個數組保存到一個文件中,可以使用savez()。savez()的第一個參數是文件名,其后的參數都是需要保存的數組,也可以使用關鍵字參數為數組起名,非關鍵字參數傳遞的數組會自動起名為arr_0、arr_1、...。savez()輸出的是一個擴展名為npz的壓縮文件,其中每個文件都是一個save()保存的npy文件,文件名和數組名相同。load()自動識別npz文件,並且返回一個類似於字典的對象,可以通過數組名作為鍵獲取數組的內容:
>>> a = np.array([[1,2,3],[4,5,6]]) >>> b = np.arange(0, 1.0, 0.1) >>> c = np.sin(b) >>> np.savez("result.npz", a, b, sin_array = c) >>> r = np.load("result.npz") >>> r["arr_0"] # 數組a array([[1, 2, 3], [4, 5, 6]]) >>> r["arr_1"] # 數組b array([ 0. , 0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9]) >>> r["sin_array"] # 數組c array([ 0. , 0.09983342, 0.19866933, 0.29552021, 0.38941834, 0.47942554, 0.56464247, 0.64421769, 0.71735609, 0.78332691])
用解壓軟件打開“result.npz”文件,會發現其中有三個文件:“arr_0.npy”、“arr_1.npy”和“sin_array.npy”,其中分別保存着數組a、b、c的內容。
savetxt()和loadtxt()可以讀寫保存1維和2維數組的文本文件。例如可以用它們讀寫CSV格式的文本文件:
>>> a = np.arange(0,12,0.5).reshape(4,-1) >>> np.savetxt("a.txt", a) # 缺省按照'%.18e'格式保存數值,以空格分隔 >>> np.loadtxt("a.txt") array([[ 0. , 0.5, 1. , 1.5, 2. , 2.5], [ 3. , 3.5, 4. , 4.5, 5. , 5.5], [ 6. , 6.5, 7. , 7.5, 8. , 8.5], [ 9. , 9.5, 10. , 10.5, 11. , 11.5]]) >>> np.savetxt("a.txt", a, fmt="%d", delimiter=",") #改為保存為整數,以逗號分隔 >>> np.loadtxt("a.txt",delimiter=",") # 讀入的時候也需要指定逗號分隔 array([[ 0., 0., 1., 1., 2., 2.], [ 3., 3., 4., 4., 5., 5.], [ 6., 6., 7., 7., 8., 8.], [ 9., 9., 10., 10., 11., 11.]])
有的CSV文件中除了保存數值之外,還保存一些說明文字,例如第一行和第一列通常為列名和行名。如果需要忽略CSV文件的第一行和第一列,可以先將文件讀為字符串數組,然后取出需要的部分再轉換為數值數組。例如對於下面的CSV數據文件:
姓名,年齡,體重,身高
張三,30,75,165
李四,45,60,170
王五,15,30,120
可以采用如下的程序讀入其中的數值部分:
""" 使用NumPy快速讀取CSV文件。 """ import numpy as np # 采用字符串數組讀取文件 tmp = np.loadtxt("test.csv", dtype=np.str, delimiter=",") # 將部分數組的值進行轉換 data = tmp[1:,1:].astype(np.float) print data # 定義結構數組元素的類型 persontype = np.dtype({ 'names':['name', 'age', 'weight', 'height'], 'formats':['S32','i', 'f', 'f']}) f = file("test.csv") f.readline() # 跳過第一行 data = np.loadtxt(f, dtype=persontype, delimiter=",") f.close() print data
讀取CSV文件
>>> tmp = np.loadtxt("test.csv", dtype=np.str, delimiter=",") >>> data = tmp[1:,1:].astype(np.float) >>> data array([[ 30., 75., 165.], [ 45., 60., 170.], [ 15., 30., 120.]])
此外,使用結構數組也能讀入這樣的文件,並且可以使用不同的元素類型保存每個列的值,下面先定義結構數組的類型:
>>> persontype = np.dtype({ ... 'names':['name', 'age', 'weight', 'height'], ... 'formats':['S32','i', 'f', 'f']})
由於文件中的第一行不是數據,因此需要先打開數據文件,讀取完第一行之后,再把文件對象傳遞給loadtxt():>>> f = file("test.csv")>>> f.readline(>>> data = np.loadtxt(f, delimiter=",", dtype=persontype)
>>> print data [('\xe5\xbc\xa0\xe4\xb8\x89', 30, 75.0, 165.0) ('\xe6\x9d\x8e\xe5\x9b\x9b', 45, 60.0, 170.0) ('\xe7\x8e\x8b\xe4\xba\x94', 15, 30.0, 120.0)]
4.使用文件對象
實際上,前面介紹的所有讀寫文件的函數都可以直接使用已經打開的文件對象,如果使用文件對象,可以將多個數組儲存到一個npy文件中:
>>> a = np.arange(8) >>> b = np.add.accumulate(a) >>> c = a + b >>> f = file("result.npy", "wb") >>> np.save(f, a) # 順序將a,b,c保存進文件對象f >>> np.save(f, b) >>> np.save(f, c) >>> f.close() >>> f = file("result.npy", "rb") >>> np.load(f) # 順序從文件對象f中讀取內容 array([0, 1, 2, 3, 4, 5, 6, 7]) >>> np.load(f) array([ 0, 1, 3, 6, 10, 15, 21, 28]) >>> np.load(f) array([ 0, 2, 5, 9, 14, 20, 27, 35])