Python爬取知乎單個問題下的回答


前言

本文的文字及圖片來源於網絡,僅供學習、交流使用,不具有任何商業用途,版權歸原作者所有,如有問題請及時聯系我們以作處理。

作者: 努力學習的渣渣哦

PS:如有需要Python學習資料的小伙伴可以加點擊下方鏈接自行獲取

http://note.youdao.com/noteshare?id=3054cce4add8a909e784ad934f956cef

步驟:

  1. 打開需要獲取的問題,F12,找到回答的想要數據的API,就是json

  2. 因為知乎下拉知乎頁面,上方的url不會變化,動態加載的網站我們一般使用抓包,拼接url

  3. 完善程序

一. 選題:【如何看待上海新推行的垃圾分類辦法?】

在這里插入圖片描述

二. 【F12】——【尋找含有文本數據的URL】

  1. 如圖:依次點開【Network】——【XHR】,我們找到【ansers?include=data%.........】,點開【preview】看到里面的【data】數據,點開就是我們需要的回答信息。 在這里插入圖片描述

  2. 點到【Header】——【Request URL】,打開該網址。(建議用火狐瀏覽器打開,json格式比較規范),找到這個就跟【獲取微博】的方法一樣了,只需要讀取json文件里面的內容就好了。 在這里插入圖片描述

  3. 【拼接url】 多找幾個,發現只有后面offset不一樣。【topics&limit=5&offset=10&platform=desktop&sort_by=default】 url = 'xxxxxx.topics&offset={}&limit=20&sort_by=created'.format((i-1)*20)' 在這里插入圖片描述

  4. 三. 輸出結果

  5. 先輸出 json,看看有沒有獲取到

在這里插入圖片描述

2 . 完整輸出

在這里插入圖片描述

結束:此處我只獲取了【回答的內容】,json里面包含很多信息,如評論時間、昵稱等這些,有需要的按照上述方法獲取就可以了


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM