本文轉自:https://juejin.im/post/5a7012b3f265da3e33049e6c
我們的網絡協議一般是把數據轉換成JSON之后再傳輸。之前在Java里面,實現序列化和反序列化,不管是jackson
,還是fastjson
都非常的簡單。現在有項目需要用Python來開發,很自然的希望這樣的便利也能在Python中體現。
但是在網上看了一些教程,講反序列化的時候,基本都是轉換為dict
或者array
。這種編程方式我從情感上是無法接受的。難道是這些JSON庫都不支持反序列化為類對象?我馬上打消了這個念頭,Python這樣強大的腳本語言,不可能沒有完善的JSON庫。
於是我就研究了一下原生的json
,以及第三方的demjson
和simplejson
。
一、原生json
我仔細研究了原生json
的loads
方法的定義
def loads(s, encoding=None, cls=None, object_hook=None, parse_float=None, parse_int=None, parse_constant=None, object_pairs_hook=None, **kw)
復制代碼
這里面的object_hook
和object_pairs_hook
參數引起了我的注意,我重點說一下object_hook
。
官方文檔的說明如下:
object_hook is an optional function that will be called with the result of any object literal decoded (a dict). The return value of object_hook will be used instead of the dict. This feature can be used to implement custom decoders (e.g. JSON-RPC class hinting).
這個object_hook
根據文檔的解釋就是一個自定義解碼函數,入參數標准反序列化后的dict,我們可以根據自己的規則轉換輸出為想要的格式。
我又去搜了一下object_hook
,大家對於這個東西的處理方式基本就是用一個靜態方法把dict轉換成對象。
我們的數據結構是這樣的
{"status":1,"info":"發布成功","data":{"id":"52","feed_id":"70"}} 復制代碼
於是我就寫了這樣的代碼:
class Response:
def __init__(self, status, info, data) -> None:
super().__init__()
self.status = status
self.info = info
self.data = data
@staticmethod
def object_hook(d):
return Response(d['status'], d['info'], d['data']) ... resp = json.loads(body, object_hook=Response.object_hook) 復制代碼
一開始呢,確實沒有問題,雖然用起來沒有java的json庫辣么方便,但總歸實現了需求。
好景不長,我測試的第一個接口返回的數據中,data
是字段一個字符串,反序列化正常。可是后來當接口返回的結構中data
字段是一個dict結構的時候,object_hook
的入參居然變成了data
字段轉換之后的dict({"id":"52","feed_id":"70"}
),而不是完整的數據。
這些懵逼了,上網搜索了一圈沒有結論。好吧,我最后又老老實實回到官方文檔,read the fucking official document
。
不看不知道,一看嚇一跳,官方文檔用了一種巧妙的方式實現了上面的需求。
>>> class JSONObject:
... def __init__(self, d):
... self.__dict__ = d
...
>>>
>>> data = json.loads(s, object_hook=JSONObject)
>>> data.name
'ACME' >>> data.shares 50 >>> data.price 490.1 >>> 復制代碼
我服了,把json解析之后的dict直接賦值給對象的屬性dict,然后就可以隨心所欲的使用屬性了,真心方便,動態語言就是好。
以上是官方的json庫實現方案,那另外兩個知名的第三方庫呢?
二、demjson
demjson
也支持hook
。有兩種配置的方式:decode
函數配置和set_hook
函數配置
1. decode
def decode( txt, encoding=None, **kwargs )
復制代碼
decode
函數可以指定很多參數,其中就包括hook
函數。hook
函數的指定是使用鍵值對的方式,鍵是hook
函數的名稱,值是hook
函數。
demjson是通過名字來管理hook函數的,所以hookname不是隨便指定的,必須是內置的幾種hook函數的名稱。
- decode_number
- decode_float
- decode_object
- decode_array
- decode_string
- encode_value
- encode_dict
- encode_dict_key
- encode_sequence
- encode_bytes
- encode_default
demjson.decode(body, encode='utf-8',decode_obbject=Reponse.object_hook) 復制代碼
結果並沒有讓我很開森,依然是無法處理嵌套結構。 日志中顯示如下內容:
2018-01-30 16:01:17,137 poster.py post_all 73 INFO : {"status":1,"info":"\u53d1\u5e03\u6210\u529f","data":{"id":"54","feed_id":"72"}} 2018-01-30 16:01:17,138 response.py object_hook 13 INFO : {'id': '54', 'feed_id': '72'} 2018-01-30 16:01:17,138 response.py object_hook 13 INFO : {'status': 1, 'info': '發布成功', 'data': demjson.undefined} 復制代碼
很奇怪的是object_hook
函數被調用了兩次,第一次是data
字段的內容,第二是全部的內容,但是data
字段沒有解析出來。 非常奇怪,百思不得其解!!!
2. set_hook
set_hook
函數跟上面的decode
函數不一樣,它是JSON
類的成員函數,而decode
函數是個靜態函數。
def set_hook(self, hookname, function) 復制代碼
吸取之前的教訓,這次我仔細閱讀了demjson的文檔,還真發現點東西。
Netsted values. When decoding JSON that has nested objects or arrays, the decoding hooks will be called once for every corresponding value, even if nested. Generally the decoding hooks will be called from the inner-most value outward, and then left to right.
這里重點說到嵌套的問題,出現嵌套的時候,每個對應的類型都會調用hook
函數一次,而且是從最內層,從左往右。好吧,之前出現的問題全部明白了,原來都是這個規則惹的禍,但是為什么這樣設計我暫時還是不明白。
set_hook
的使用方式
j = demjson.JSON()
j.set_hook( 'decode_array', my_sort_array ) j.decode(body, encode='utf-8') 復制代碼
三、simplejson
前面說了那么多,simplejson
的方式就沒什么可說的,跟官方的json
庫hook
方式一致。
總結
雖然我的需求是滿足了,但是還是有一個大大的問號留在我心中,為什么是這樣設計,網上沒有找到合適的答案,剩下的需要研究源代碼分析了。
作者:挨踢的懶貓
鏈接:https://juejin.im/post/5a7012b3f265da3e33049e6c
來源:掘金
著作權歸作者所有。商業轉載請聯系作者獲得授權,非商業轉載請注明出處。