pandas 解析json文件為DataFrame的三種方式以及其靈活度和效率的比較


我所了解到的,將json串解析為DataFrame的方式主要有一樣三種:

  1. 利用pandas自帶的read_json直接解析字符串
  2. 利用json的loads和pandas的json_normalize進行解析
  3. 利用json的loads和pandas的DataFrame直接構造(這個過程需要手動修改loads得到的字典格式)
 
實驗代碼如下:
[python]  view plain  copy
 
  1. # -*- coding: UTF-8 -*-  
  2. from pandas.io.json import json_normalize  
  3. import pandas as pd  
  4. import json  
  5. import time  
  6.   
  7. # 讀入數據  
  8. data_str = open('data.json').read()  
  9. print data_str  
  10.   
  11. # 測試json_normalize  
  12. start_time = time.time()  
  13. for i in range(0, 300):  
  14.     data_list = json.loads(data_str)  
  15.     df = json_normalize(data_list)  
  16. end_time = time.time()  
  17. print end_time - start_time  
  18.   
  19. # 測試自己構造  
  20. start_time = time.time()  
  21. for i in range(0, 300):  
  22.     data_list = json.loads(data_str)  
  23.     data = [[d['timestamp'], d['value']] for d in data_list]  
  24.     df = pd.DataFrame(data, columns=['timestamp', 'value'])  
  25. end_time = time.time()  
  26. print end_time - start_time  
  27.   
  28. #  測試read_json  
  29. start_time = time.time()  
  30. for i in range(0, 300):  
  31.     df = pd.read_json(data_str, orient='records')  
  32. end_time = time.time()  
  33. print end_time - start_time  
 
 
實驗結果如下:
可以看出由於read_json直接對字符串進行的解析,其效率是最高的,但是其對JSON串的要求也是最高的,需要滿足其規定的格式才能夠讀取。 其支持的格式可以在pandas的官網點擊打開鏈接可以看到。然而json_normalize是解析json串構造的字典的,其靈活性比read_json要高很多。 但是令人意外的是,其效率還不如我自己解析來得快(自己解析時使用列表解析的功能比普通的for循環快很多)。當然最靈活的還是自己解析,可以 在構造DataFrame之前進行一些簡單的數據處理。

 read_json功能很強大,可以參考 http://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_json.html?highlight=read_json#pandas.read_json


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM