在執行爬蟲項目的過程中,有時返回的不是一個html頁面而是json格式數據,此時對數據的解析非常重要。
1.Json格式數據的爬取
采用request對以上的url進行爬取:
import requests
content=requests.get(url,headers=headers).content
在爬取的過程中,考慮到需要模擬真實的用戶,因此需要添加cookie或者header參數。
2.對爬取的json格式數據的解析
數據已經爬取下來,存放在contend里面,接下來就是對數據的處理
可以在 www.bejson.com 中使json數據能夠結構化顯示
對於這個數據的解析可以采用采用正則表達式解析
import re
project = re.findall(r'"title":(.*?),', content)
使用正則提取title字段