python爬蟲中涉及json數據的處理


在執行爬蟲項目的過程中,有時返回的不是一個html頁面而是json格式數據,此時對數據的解析非常重要。

1.Json格式數據的爬取

  采用request對以上的url進行爬取:

import  requests

content=requests.get(url,headers=headers).content

 

在爬取的過程中,考慮到需要模擬真實的用戶,因此需要添加cookie或者header參數。

 

2.對爬取的json格式數據的解析

  數據已經爬取下來,存放在contend里面,接下來就是對數據的處理

可以在 www.bejson.com 中使json數據能夠結構化顯示

對於這個數據的解析可以采用采用正則表達式解析

import re

project = re.findall(r'"title":(.*?),', content)

使用正則提取title字段


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM