文章目錄
一、pickle是什么?
在英語中 pickle 名詞是泡菜,動詞是腌漬的意思。可以理解為把東西腌起來保存成文件,要用的時候讀出來洗洗再用。
python的pickle模塊實現了基本的數據序列化和反序列化。
序列化對象可以在磁盤上保存對象,並在需要的時候讀取出來。任何對象都可以執行序列化操作。
pickling是將Python對象層次結構轉換為字節流的過程。
unpickling是反向操作,從而將字節流(來自二進制文件或類似字節的對象)轉換回對象層次結構。
1.pickle的優缺點
1、優點:
pickle提供了一個簡單的持久化功能。可以將對象以文件的形式存放在磁盤上。
通過pickle模塊的序列化操作我們能夠將程序中運行的對象信息保存到文件中去,永久存儲。
python中幾乎所有的數據類型(列表,字典,集合,類等)都可以用pickle來序列化。
沒有外部標准強加的限制,例如JSON或XDR(不能代表指針共享)。
默認情況下,pickle數據格式使用相對緊湊的二進制表示。如果需要最佳尺寸特征,則可以有效地壓縮數據。
pickle可以表示極其龐大的Python類型(其中許多是自動的,通過巧妙地使用Python的內省工具;復雜的案例可以通過實現特定的對象API來解決)。
通過pickle模塊的反序列化操作,我們能夠從文件中創建上一次程序保存的對象。
2、缺點:
pickle模塊只能在python中使用,僅限於傳輸的兩端都是python的情況,且需要盡量保持兩端的版本一致。
非Python程序可能無法重建pickled Python對象。
pickle序列化后的數據,可讀性差,人一般無法識別。
2.pickle和JSON的區別
1、JSON是一種文本序列化格式(它輸出unicode文本,雖然大部分時間它被編碼utf-8),而pickle是二進制序列化格式。
2、JSON是人類可讀的,而pickle則不是。
3、JSON是可互操作的,並且在Python生態系統之外廣泛使用,而pickle是特定於Python的。
默認情況下,JSON只能表示Python內置類型的子集,而不能表示自定義類;
3.pickle的應用總結
本地序列化的情況,應用較少。一般來說,大多數應用場景在網絡中,將數據序列化后通過網絡傳輸到遠程結點,遠程服務器上的服務接受到數據后進行反序列化,就可以使用了。
但是,需要注意的是,遠端接受端反序列化時必須有對應的數據類型,否則就會報錯,尤其是自定義類,必須遠程存在。
目前,大多數項目都不是單機,不是單服務,需要通過網絡將數據傳送到其他結點上,這就需要大量的序列化,反序列化。
但是python程序之間還可以使用pickle解決序列化和反序列化。
如果是跨平台,跨語言,跨協議,pickle就不適合了,就需要公共協議,如XML/Json /protocol Buffer等。
每種協議都有自己的負載,其所使用的場景都不一樣,二進制的操作不一定適用於所有的場景。
但越是底層的協議,越需要二進制傳輸。
二、pickle的用法
1. pickle接口
pickle 包主要提供了兩個功能,一個是將對象轉換成字節流,即串行化;另一個是將字節流轉換成對象,即反串行化。
每個功能又分出了兩個分支,一個是僅轉換成字節流,另一個是轉換成字節流並保存到文件中去。
所以 pickle 包主要有 4 個接口,如下圖所示:
基本接口:
pickle.dump(obj, file [,protocol])
注釋:
obj——序列化對象,將對象obj保存到文件file中去。
file——file表示保存到的類文件對象,file必須有write()接口,file可以是一個以’w’打開的文件或者是一個StringIO對象,也可以是任何可以實現write()接口的對象。
protocol——序列化模式,默認是 0(ASCII協議,表示以文本的形式進行序列化)。
protocol的值還可以是1和2(1和2表示以二進制的形式進行序列化。其中,1是老式的二進制協議;2是新二進制協議)。
1、dump(對象,文件對象):串行化並保存到文件,dump 的文件對象要求是可寫的。
2、load(文件對象):從文件讀數據並恢復出對象。load 函數從文件對象中讀出一個對象,返回值就是該對象。
>>> a = range(10)
>>> a
[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]
>>> fd = open("tmp,bin", "wb")
>>> fd
<open file 'tmp,bin', mode 'wb' at 0x000000000277E8A0>
>>> pickle.dump(a, fd)
>>> fd.close()
>>> fd2 = open("tmp,bin", "rb")
>>> a2 = pickle.load(fd2)
>>> a2
[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]
3、dumps(對象):僅串行化。dumps 函數返回一個字節流。
4、loads(字節流):從字節流中恢復出對象。輸入應該是 dumps() 的返回值。
注意,不要隨意構造字節流,因為並不是所有的字節流都能被解析出來。
>>> a = range(10)
>>> a
[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]
>>> s = pickle.dumps(a)
>>> s
'(lp0\nI0\naI1\naI2\naI3\naI4\naI5\naI6\naI7\naI8\naI9\na.'
>>> type(s)
<type 'str'>
>>> b = pickle.loads(s)
>>> b
[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]
2. pickle實例
有了 pickle 這個對象, 就能對 file 以讀取的形式打開:
x = pickle.load(file)
注解:從 file 中讀取一個字符串,並將它重構為原來的python對象。
序列化的時候,只是序列化了整個序列對象,而不是內存地址。
file:類文件對象,有read()和readline()接口。
舉例:
一個字典a = {‘name’:‘Tom’,‘age’:18},用pickle.dump存到本地文件,所存數據的結構就是字典。
而普通的file.write寫入文件的是字符串。讀取時,pickle.load返回的是一個字典,file.read返回的是一個字符串。
如下代碼:
import pickle
a = {'name': 'Tom', 'age': 18}
with open('text.txt', 'wb') as file:
pickle.dump(a, file)
with open('text.txt', 'rb') as file2:
b = pickle.load(file2)
print(type(b))
運行結果:
得到的b的類型是字典,b和a是等價的。
也就是說pickle可以把字典、列表等結構化數據存到本地文件,讀取后返回的還是字典、列表等結構化數據。
而file.write、file.read存取的對象是字符串。
我們再使用zip創建字典看看反序列化輸出是不是也是字典:
zip()可以將兩個可迭代對象中的對應元素打包成一個個元組,然后返回這些元組組成的列表。
dict()創建字典,可以傳入元組列表創建字典,也可以通過zip得到元組列表后來創建字典。
from pickle import *
d = dict(zip('mysql', range(5)))
s = dumps(d) # 進行序列化
print(s) # 正常情況的輸出
print(loads(s)) # 進行反序列化並輸出
運行結果如下,結果也是字典: