序列化Python對象

❝ Every Saturday since we’ve lived in this apartment, I have awakened at 6:15, poured myself a bowl of cereal, added
a quarter-cup of 2% milk, sat on this end of this couch, turned on BBC America, and watched Doctor Who. ❞
— Sheldon, The Big Bang Theory

‣ 顯示目錄

深入#

序列化的概念很簡單。內存里面有一個數據結構，你希望將它保存下來，重用，或者發送給其他人。你會怎么做？嗯, 這取決於你想要怎么保存，怎么重用，發送給誰。很多游戲允許你在退出的時候保存進度，然后你再次啟動的時候回到上次退出的地方。(實際上, 很多非游戲程序也會這么干。) 在這個情況下, 一個捕獲了當前進度的數據結構需要在你退出的時候保存到磁盤上，接着在你重新啟動的時候從磁盤上加載進來。這個數據只會被創建它的程序使用，不會發送到網絡上，也不會被其它程序讀取。因此，互操作的問題被限制在保證新版本的程序能夠讀取以前版本的程序創建的數據。

在這種情況下，pickle 模塊是理想的。它是Python標准庫的一部分, 所以它總是可用的。它很快; 它的大部分同Python解釋器本身一樣是用C寫的。它可以存儲任意復雜的Python數據結構。

什么東西能用pickle 模塊存儲?

所有Python支持的原生類型 : 布爾, 整數, 浮點數, 復數, 字符串, bytes (字節串)對象, 字節數組, 以及 None .
由任何原生類型組成的列表，元組，字典和集合。
由任何原生類型組成的列表，元組，字典和集合組成的列表，元組，字典和集合(可以一直嵌套下去，直至Python支持的最大遞歸層數 ).
函數，類，和類的實例(帶警告)。

如果這還不夠用，pickle 模塊也是可擴展的。如果你對可擴展性有興趣，請查看本章最后的進一步閱讀小節中的鏈接。

本章例子的快速筆記#

本章會使用兩個Python Shell來講故事。本章的例子都是一個單獨的故事的一部分。當我演示pickle 和 json 模塊時，你會被要求在兩個Python Shell中來回切換。

為了讓事情簡單一點，打開Python Shell 並定義下面的變量:

>>> shell = 1

保持該窗口打開。現在打開另一個Python Shell 並定義下面下面的變量:

>>> shell = 2

貫穿整個章節, 在每個例子中我會使用shell 變量來標識使用的是哪個Python Shell。

⁂

保存數據到 Pickle 文件#

pickle 模塊的工作對象是數據結構。讓我們來創建一個：

①	在Python Shell #1 里面。
②	想法是建立一個Python字典來表示一些有用的東西，比如一個Atom 供稿的entry 。但是為了炫耀一下`pickle`模塊我也想保證里面包含了多種不同的數據類型。不需要太關心這些值。
③	`time` 模塊包含一個表示時間點(精確到1毫秒)的數據結構(`time_struct` )以及操作時間結構的函數。`strptime()` 函數接受一個格式化過的字符串並將其轉化成一個`time_struct` 。這個字符串使用的是默認格式，但你可以通過格式化代碼來控制它。查看`time` 模塊來獲得更多細節。

①	仍然在Python Shell #1 中。
②	使用`open()` 函數來打開一個文件。設置文件模式為`'wb'` 來以二進制寫模式打開文件。把它放入`with` 語句中來保證在你完成的時候文件自動被關閉。
③	`pickle` 模塊中的`dump()` 函數接受一個可序列化的Python 數據結構, 使用最新版本的pickle協議將其序列化為一個二進制的，Python特定的格式，並且保存到一個打開的文件里。

①	這是Python Shell #2.
②	這里沒有`entry` 變量被定義過。你在Python Shell #1 中定義了`entry` 變量, 但是那是另一個擁有自己狀態的完全不同的環境。
③	打開你在Python Shell #1中創建的`entry.pickle` 文件。`pickle` 模塊使用二進制數據格式，所以你總是應該使用二進制模式打開pickle文件。
④	`pickle.load()` 函數接受一個流對象 , 從流中讀取序列化后的數據，創建一個新的Python對象，在新的Python對象中重建被序列化的數據，然后返回新建的Python對象。
⑤	現在`entry` 變量是一個鍵和值看起來都很熟悉的字典。

①	切換回Python Shell #1。
②	打開`entry.pickle` 文件。
③	將序列化后的數據裝載到一個新的變量, `entry2` 。
④	Python 確認兩個字典, `entry` 和 `entry2` 是相等的。在這個shell里, 你從零開始構造了`entry` , 從一個空字典開始然后手工給各個鍵賦值。你序列化了這個字典並將其保存在`entry.pickle` 文件中。現在你從文件中讀取序列化后的數據並創建了原始數據結構的一個完美復制品。
⑤	相等和相同是不一樣的。我說的是你創建了原始數據結構的一個完美復制品 , 這沒錯。但它僅僅是一個復制品。
⑥	我要指出`'tags'` 鍵對應的值是一個元組，而`'internal_id'` 鍵對應的值是一個`bytes` 對象。原因在這章的后面就會清楚了。

①	`pickle.dumps()` 函數(注意函數名最后的`'s'` )執行和`pickle.dump()` 函數相同的序列化。取代接受流對象並將序列化后的數據保存到磁盤文件，這個函數簡單的返回序列化的數據。
②	由於pickle協議使用一個二進制數據格式，所以`pickle.dumps()` 函數返回`bytes` 對象。
③	`pickle.loads()` 函數(再一次, 注意函數名最后的`'s'` ) 執行和`pickle.load()` 函數一樣的反序列化。取代接受一個流對象並去文件讀取序列化后的數據，它接受包含序列化后的數據的`bytes` 對象, 比如`pickle.dumps()`函數返回的對象。
④	最終結果是一樣的: 原始字典的完美復制。

①	我們將創建一個新的數據結構，而不是重用現存的`entry` 數據結構。在這章的后面, 我們將會看見當我們試圖用JSON 編碼更復雜的數據結構的時候會發生什么。
②	JSON 是一個基於文本的格式，這意味你可以以文本模式打開文件，並給定一個字符編碼。用UTF-8 總是沒錯的。
③	同`pickle` 模塊一樣, `json` 模塊定義了`dump()` 函數，它接受一個Python 數據結構和一個可寫的流對象。`dump()` 函數將Python數據結構序列化並寫入到流對象中。在`with` 語句內工作保證當我們完成的時候正確的關閉文件。

筆記	JSON	Python 3
	object	dictionary
	array	list
	string	string
	integer	integer
	real number	float
*	`true`	`True`
*	`false`	`False`
*	`null`	`None`
* 所有的 JSON 值都是大小寫敏感的。

①	好的, 是時間再看看`entry` 數據結構了。它包含了所有的東西: 布爾值，`None` 值，字符串，字符串元組,`bytes` 對象, 以及`time` 結構體。
②	我知道我已經說過了，但是這值得再重復一次：JSON 是一個基於文本的格式。總是應使用UTF-8 字符編碼以文本模式打開JSON 文件。
③	嗯，這可不好。發生什么了？

①	為了給一個JSON 沒有原生支持的數據類型定義你自己的“迷你序列化格式”, 只要定義一個接受一個Python對象為參數的函數。這個對象將會是`json.dump()` 函數無法自己序列化的實際對象 — 這個例子里是`bytes`對象 `b'/xDE/xD5/xB4/xF8'` 。
②	你的自定義序列化函數應該檢查`json.dump()` 函數傳給它的對象的類型。當你的函數只序列化一個類型的時候這不是必須的，但是它使你的函數的覆蓋的內容清楚明白，並且在你需要序列化更多類型的時候更容易擴展。
③	在這個例子里面, 我將`bytes` 對象轉換成字典。`__class__` 鍵持有原始的數據類型(以字符串的形式,`'bytes'` ), 而 `__value__` 鍵持有實際的數據。當然它不能是`bytes` 對象; 大體的想法是將其轉換成某些可以被JSON 序列化的東西! `bytes` 對象就是一個范圍在0–255的整數的序列。我們可以使用`list()` 函數將`bytes` 對象轉換成整數列表。所以`b'/xDE/xD5/xB4/xF8'` 變成 `[222, 213, 180, 248]` . (算一下! 這是對的! 16進制的字節 `/xDE` 是十進制的 222, `/xD5` 是 213, 以此類推。)
④	這一行很重要。你序列化的數據結構可能包含JSON 內建的可序列化類型和你的定制序列化器支持的類型之外的東西。在這種情況下，你的定制序列化器拋出一個`TypeError` ，那樣`json.dump()` 函數就可以知道你的定制序列化函數不認識該類型。

①	`customserializer` 模塊是你在前一個例子中定義`to_json()` 函數的地方。
②	文本模式, UTF-8 編碼, yadda yadda。(你很可能會忘記這一點! 我就忘記過好幾次! 事情一切正常直到它失敗的時刻, 而它的失敗很令人矚目。)
③	這是重點: 為了將定制轉換函數鈎子嵌入`json.dump()` 函數, 只要將你的函數以`default` 參數傳入`json.dump()` 函數。(萬歲, Python里一切皆對象 !)
④	好吧, 實際上還是不能工作。但是看一下異常。`json.dump()` 函數不再抱怨無法序列化`bytes` 對象了。現在它在抱怨另一個完全不同的對象: `time.struct_time` 對象。

①	為了演示目的，切換到Python Shell #2 並且刪除在這一章前面使用`pickle` 模塊創建的`entry` 數據結構。
②	最簡單的情況下，`json.load()` 函數同`pickle.load()` 函數的結果一模一樣。你傳入一個流對象，它返回一個新的Python對象。
③	有好消息也有壞消息。好消息先來: `json.load()` 函數成功的讀取了你在Python Shell #1中創建的`entry.json` 文件並且生成了一個包含那些數據的新的Python對象。接着是壞消息: 它沒有重建原始的`entry` 數據結構。`'internal_id'` 和 `'published_date'` 這兩個值被重建為字典 — 具體來說, 你在`to_json()` 轉換函數中使用JSON 兼容的值創建的字典。

①	這函數也同樣接受一個參數返回一個值。但是參數不是字符串，而是一個Python對象 — 反序列化一個JSON編碼的字符串為Python的結果。
②	你只需要檢查這個對象是否包含`to_json()` 函數創建的`'__class__'` 鍵。如果是的，`'__class__'` 鍵對應的值將告訴你如何將值解碼成原來的Python數據類型。
③	為了解碼由`time.asctime()` 函數返回的字符串，你要使用`time.strptime()` 函數。這個函數接受一個格式化過的時間字符串(格式可以自定義，但默認值同`time.asctime()` 函數的默認值相同) 並且返回`time.struct_time` .
④	為了將整數列表轉換回`bytes` 對象, 你可以使用 `bytes()` 函數。

①	為了將`from_json()` 函數嵌入到反序列化過程中，把它作為`object_hook` 參數傳入到`json.load()` 函數中。接受函數作為參數的函數; 真方便!
②	`entry` 數據結構現在有一個值為`bytes` 對象的`'internal_id'` 鍵。它也包含一個`'published_date'` 鍵，其值為`time.struct_time` 對象。

①	即使在序列化過程中加入了`to_json()` 鈎子函數, 也在反序列化過程中加入`from_json()` 鈎子函數, 我們仍然沒有重新創建原始數據結構的完美復制品。為什么沒有？
②	在原始的`entry` 數據結構中, `'tags'` 鍵的值為一個三個字符串組成的元組。
③	但是重現創建的`entry2` 數據結構中, `'tags'` 鍵的值是一個三個字符串組成的列表。JSON 並不區分元組和列表；它只有一個類似列表的數據類型，數組，並且`json` 模塊在序列化過程中會安靜的將元組和列表兩個都轉換成JSON 數組。大多數情況下，你可以忽略元組和列表的區別，但是在使用`json` 模塊時應記得有這么一回使。

python 序列化

序列化Python對象

深入#

本章例子的快速筆記#

保存數據到 Pickle 文件#

從Pickle文件讀取數據#

不使用文件來進行序列化#

字節串和字符串又一次抬起了它們丑陋的頭。#

調試Pickle 文件#

序列化Python對象以供其它語言讀取#

將數據保存至 JSON 文件#

將Python數據類型映射到JSON #

序列化JSON 不支持的數據類型#

從JSON 文件加載數據#

進一步閱讀#

免責聲明！