Python解析超大的json數據（GB級別）

本文轉載自查看原文 2020-06-03 21:04 7190

Python解析超大的json數據（GB級別）

使用Python解析各種格式的數據都很方便，比如json、txt、xml、csv等。用於處理簡單的數據完全足夠用了，而且代碼簡單易懂。

前段時間我遇到一個問題，如何解析超大的json文件呢？剛開始天真的我在使用json.load直接加載json文件，然而內存報錯卻給了我當頭一棒，json.load它是直接將數據加載到內存中然后解析出來的，這說明什么呢？當你的json文件過於龐大的時候，你的電腦內存裝不下你的json文件，這時候就相當尷尬了，加載不了，解析不了！！

怎么辦呢？我趕緊上網查閱資料，網上大部份資料都是基於分塊的思路解決超大數據文件的解析的，比如read函數可以一塊一塊加載，像這樣read(1024)每次讀取1024字節，總能將數據讀取完的。或者是readline函數，每次讀取一行，這個函數的讀取方式特別適合txt、csv文件。然而這樣的函數對於json格式的數據就完全不適用了，因為json格式的文件是有嚴格的結構的。你不可能一塊一塊的或者一行一行的讀取，噢不對，你可以這樣讀取，但是你這樣讀取出來的數據是完全沒有意義的，因為無法解析，你無法獲得你想要的數據。

塊讀取的方式不行，那該怎么辦呢，流式讀取唄，這時候我想起了萬能的GitHub，上去Github搜索python json parser。看看我發現了什么！！！

啊，太棒了，光看簡介基於python的迭代的json解析器，我感覺我的問題可能要被解決掉了。

果不其然，ijson完美的解決了我的問題，它抽取了json文件的特征形成了一個生成器的東西，下面舉一個實例。

{
  "earth": {
    "europe": [
     {
        "name": "Paris",
        "type": "city",
        "info": "aaa"
     },
     {
        "name": "Thames",
        "type": "river",
        "info": "sss"
     },
     {
        "name": "yyy",
        "type": "city",
        "info": "aaa"
     },
     {
        "name": "eee",
        "type": "river",
        "info": "sss"
     }
   ],
    "america": [
     {
        "name": "Texas",
        "type": "state",
        "info": "jjj"
     }
   ]
 }
}

這是一個簡單的json文件，用它來演示json的效果。

import ijson

with open('test.json', 'r', encoding='utf-8') as f:
    objects = ijson.items(f, 'earth.europe.item')
    #這個objects在這里就是相當於一個生成器，可以調用next函數取它的下一個值
    while True:
        try:
            print(objects.__next__())
        except StopIteration as e:
            print("數據讀取完成")
            break

很好，接下來看一下效果如何。

{'name': 'Paris', 'type': 'city', 'info': 'aaa'}
{'name': 'Thames', 'type': 'river', 'info': 'sss'}
{'name': 'yyy', 'type': 'city', 'info': 'aaa'}
{'name': 'eee', 'type': 'river', 'info': 'sss'}
數據讀取完成

是不是很棒呢？

這樣不會出現內存撐爆了的錯誤，因為它類似於生成器的方式流式讀取json數據，熟悉生成器的朋友應該就很清楚了。

如果想要加速讀取解析json文件，可以加上threading多線程模塊。這里就不做演示了。

另外附上ijson模塊的文檔地址：https://pypi.org/project/ijson/文檔本人就看了一部分。更多的內容沒有深入了解，有興趣的大佬可以深入研究下。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 解析超大JSON文件分頁讀取GB級別超大文件試驗 Python對JSON數據的解析超大JSON文件解析方案（Java） Json字符串解析原理、超大json對象的解析 Python3 JSON 數據解析 Python | JSON 數據解析(Json & JsonPath) python解析url返回的json格式數據 python json 解析 python之json文件解析