python爬蟲中涉及json數據的處理

本文轉載自查看原文 2019-12-15 11:25 275

在執行爬蟲項目的過程中，有時返回的不是一個html頁面而是json格式數據，此時對數據的解析非常重要。

1.Json格式數據的爬取

采用request對以上的url進行爬取：

import requests

content=requests.get(url,headers=headers).content

在爬取的過程中，考慮到需要模擬真實的用戶，因此需要添加cookie或者header參數。

2.對爬取的json格式數據的解析

數據已經爬取下來，存放在contend里面，接下來就是對數據的處理

可以在 www.bejson.com 中使json數據能夠結構化顯示

對於這個數據的解析可以采用采用正則表達式解析

import re

project = re.findall(r'"title":(.*?),', content)

使用正則提取title字段

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 python爬蟲之json數據處理 python中如何處理json數據 python中json文件處理涉及的四個函數json.dumps()和json.loads()、json.dump()和json.load()的區分 python3 中post處理json 數據解析爬蟲獲取的JSON數據--python爬蟲 python 處理 json 數據 Python處理JSON數據 python 處理json數據 Python爬蟲數據處理 python爬蟲簡單實現,並在java中調用python腳本,將數據保存在json文件中