python pickle模塊的使用講解


機器學習中,我們常常需要把訓練好的模型存儲起來,這樣在進行決策時直接將模型讀出,而不需要重新訓練模型,這樣就大大節約了時間。Python提供的pickle模塊就很好地解決了這個問題,它可以序列化對象並保存到磁盤中,並在需要的時候讀取出來,任何對象都可以執行序列化操作。

pickle模塊中最常用的函數為:

  1. pickle.dump(obj, file, [,protocol])

函數的功能:將obj對象序列化存入已經打開的file中。

參數講解:
obj:想要序列化的obj對象。
file:文件名稱。
protocol:序列化使用的協議。如果該項省略,則默認為0。如果為負值或HIGHEST_PROTOCOL,則使用最高的協議版本。
  1. pickle.load(file)

函數的功能:將file中的對象序列化讀出。

參數講解:
file:文件名稱。

  

  1. pickle.dumps(obj[, protocol])

函數的功能:將obj對象序列化為string形式,而不是存入文件中。

參數講解:
obj:想要序列化的obj對象。
protocal:如果該項省略,則默認為0。如果為負值或HIGHEST_PROTOCOL,則使用最高的協議版本。

 

  1. pickle.loads(string)

函數的功能:從string中讀出序列化前的obj對象。

參數講解:
string:文件名稱。

 

dump() 與 load() 相比 dumps() 和 loads() 還有另一種能力:dump()函數能一個接着一個地將幾個對象序列化存儲到同一個文件中,隨后調用load()來以同樣的順序反序列化讀出這些對象。
 
 

【代碼示例】test_pickle.py

#coding:utf-8
__author__ = 'weipengfei'
#pickle模塊主要函數的應用舉例
import pickle
dataList = [[1, 1, 'yes'], [1, 1, 'yes'], [1, 0, 'no'], [0, 1, 'no'],
            [0, 1, 'no']]
dataDic = {0: [1, 2, 3, 4], 1: ('a', 'b'), 2: {'c': 'yes', 'd': 'no'}}

#使用dump()將數據序列化到文件中
fw = open('dataFile.txt', 'wb')
# Pickle the list using the highest protocol available.
pickle.dump(dataList, fw, -1)
# Pickle dictionary using protocol 0.
pickle.dump(dataDic, fw)
fw.close()

#使用load()將數據從文件中序列化讀出
fr = open('dataFile.txt', 'rb')
data1 = pickle.load(fr)
print(data1)
data2 = pickle.load(fr)
print(data2)
fr.close()

#使用dumps()和loads()舉例
p = pickle.dumps(dataList)
print(pickle.loads(p))
p = pickle.dumps(dataDic)
print(pickle.loads(p))

 

結果:

[[1, 1, 'yes'], [1, 1, 'yes'], [1, 0, 'no'], [0, 1, 'no'], [0, 1, 'no']]
{0: [1, 2, 3, 4], 1: ('a', 'b'), 2: {'c': 'yes', 'd': 'no'}}
[[1, 1, 'yes'], [1, 1, 'yes'], [1, 0, 'no'], [0, 1, 'no'], [0, 1, 'no']]
{0: [1, 2, 3, 4], 1: ('a', 'b'), 2: {'c': 'yes', 'd': 'no'}}

 



補充:

序列化的概念:人類的語言太豐富了,計算機要想去存儲,肯定是要轉化成它所能理解的某種方式。所以這個“翻譯”的過程就叫序列化。

 

 注意觀察,我們人類的語言是有結構的(主謂賓定狀補),計算機的語言是無結構的,就是一串的“01010100010011”,是吧?那么經常我們要將一些信息保存在計算機內部中,比如保存為文件;有時候我們還會把一段話傳給網線另一側的計算機,比如我和同事用QQ聊天,我們這一側只是輸入“你好”,同事那一頭收到“你好”的消息。

 

 

無論你是保存到本地,還是通過網線傳輸,信息都要轉化成“00111011”的樣子。注意這兩個場景:

  • 本地存儲
  • 網絡傳輸

 實在記不住的話只記住一點即可:凡是離開內存的信息都要進行序列化。

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM