pandas 解析json文件為DataFrame的三種方式以及其靈活度和效率的比較

本文轉載自查看原文 2017-12-13 21:02 4273

我所了解到的，將json串解析為DataFrame的方式主要有一樣三種：

利用pandas自帶的read_json直接解析字符串
利用json的loads和pandas的json_normalize進行解析
利用json的loads和pandas的DataFrame直接構造(這個過程需要手動修改loads得到的字典格式)

實驗代碼如下：

[python] view plain copy

# -*- coding: UTF-8 -*-
from pandas.io.json import json_normalize
import pandas as pd
import json
import time
# 讀入數據
data_str = open('data.json').read()
print data_str
# 測試json_normalize
start_time = time.time()
for i in range(0, 300):
data_list = json.loads(data_str)
df = json_normalize(data_list)
end_time = time.time()
print end_time - start_time
# 測試自己構造
start_time = time.time()
for i in range(0, 300):
data_list = json.loads(data_str)
data = [[d['timestamp'], d['value']] for d in data_list]
df = pd.DataFrame(data, columns=['timestamp', 'value'])
end_time = time.time()
print end_time - start_time
# 測試read_json
start_time = time.time()
for i in range(0, 300):
df = pd.read_json(data_str, orient='records')
end_time = time.time()
print end_time - start_time

實驗結果如下：

可以看出由於read_json直接對字符串進行的解析,其效率是最高的，但是其對JSON串的要求也是最高的，需要滿足其規定的格式才能夠讀取。 其支持的格式可以在pandas的官網點擊打開鏈接可以看到。然而json_normalize是解析json串構造的字典的，其靈活性比read_json要高很多。 但是令人意外的是，其效率還不如我自己解析來得快（自己解析時使用列表解析的功能比普通的for循環快很多）。當然最靈活的還是自己解析，可以 在構造DataFrame之前進行一些簡單的數據處理。

read_json功能很強大，可以參考 http://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_json.html?highlight=read_json#pandas.read_json

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 JSON的三種解析方式 pandas dataframe 過濾——apply最靈活！！！ Django——三種方式上傳文件/數據 (form ajax json) JS事件綁定的三種方式比較 List集合的三種遍歷方式的效率問題 SpringMVC返回json數據的三種方式解析XML的4種方式及優缺點比較 JAVA解析xml的四種方式比較 Qt中三種解析xml的方式爬蟲數據解析的三種方式