Python解析超大的json數據(GB級別)


Python解析超大的json數據(GB級別)

使用Python解析各種格式的數據都很方便,比如json、txt、xml、csv等。用於處理簡單的數據完全足夠用了,而且代碼簡單易懂。

前段時間我遇到一個問題,如何解析超大的json文件呢?剛開始天真的我在使用json.load直接加載json文件,然而內存報錯卻給了我當頭一棒,json.load它是直接將數據加載到內存中然后解析出來的,這說明什么呢?當你的json文件過於龐大的時候,你的電腦內存裝不下你的json文件,這時候就相當尷尬了,加載不了,解析不了!!

怎么辦呢?我趕緊上網查閱資料,網上大部份資料都是基於分塊的思路解決超大數據文件的解析的,比如read函數可以一塊一塊加載,像這樣read(1024)每次讀取1024字節,總能將數據讀取完的。或者是readline函數,每次讀取一行,這個函數的讀取方式特別適合txt、csv文件。然而這樣的函數對於json格式的數據就完全不適用了,因為json格式的文件是有嚴格的結構的。你不可能一塊一塊的或者一行一行的讀取,噢不對,你可以這樣讀取,但是你這樣讀取出來的數據是完全沒有意義的,因為無法解析,你無法獲得你想要的數據。

塊讀取的方式不行,那該怎么辦呢,流式讀取唄,這時候我想起了萬能的GitHub,上去Github搜索python json parser。看看我發現了什么!!!

image-20200603195103690

啊,太棒了,光看簡介基於python的迭代的json解析器,我感覺我的問題可能要被解決掉了。

果不其然,ijson完美的解決了我的問題,它抽取了json文件的特征形成了一個生成器的東西,下面舉一個實例。

{
 "earth": {
   "europe": [
    {
       "name": "Paris",
       "type": "city",
       "info": "aaa"
    },
    {
       "name": "Thames",
       "type": "river",
       "info": "sss"
    },
    {
       "name": "yyy",
       "type": "city",
       "info": "aaa"
    },
    {
       "name": "eee",
       "type": "river",
       "info": "sss"
    }
  ],
   "america": [
    {
       "name": "Texas",
       "type": "state",
       "info": "jjj"
    }
  ]
}
}

這是一個簡單的json文件,用它來演示json的效果。

import ijson

with open('test.json', 'r', encoding='utf-8') as f:
   objects = ijson.items(f, 'earth.europe.item')
   #這個objects在這里就是相當於一個生成器,可以調用next函數取它的下一個值
   while True:
       try:
           print(objects.__next__())
       except StopIteration as e:
           print("數據讀取完成")
           break

很好,接下來看一下效果如何。

{'name': 'Paris', 'type': 'city', 'info': 'aaa'}
{'name': 'Thames', 'type': 'river', 'info': 'sss'}
{'name': 'yyy', 'type': 'city', 'info': 'aaa'}
{'name': 'eee', 'type': 'river', 'info': 'sss'}
數據讀取完成

是不是很棒呢?

這樣不會出現內存撐爆了的錯誤,因為它類似於生成器的方式流式讀取json數據,熟悉生成器的朋友應該就很清楚了。

如果想要加速讀取解析json文件,可以加上threading多線程模塊。這里就不做演示了。

另外附上ijson模塊的文檔地址:https://pypi.org/project/ijson/文檔本人就看了一部分。更多的內容沒有深入了解,有興趣的大佬可以深入研究下。




免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM