爬蟲--今日頭條


1、分析今日頭條

  在看頭條的時候可以發現展示出來的頁面的數據都是一些封裝過的js代碼或者css代碼,所以這時候就需要考慮頁面的數據是不是封裝在cookie里面了

  回過頭去看cookie就可以發現有一個s_v_web_id的cookie字段,然后上去一試就得到了當前網頁的真是源代碼,所以我們就可以根據這個cookie和網址一起想服務端發送過去以來獲得真實的數據

2、選取合適的方法來爬

  當我們獲得了真實的數據以后,要走的就是解析這里面的內容了,我又定睛一看,發現我要的所有信息都放在了data這個字典里面了,所以我就循環data,然后獲得里面的title和id(要記住這里面的id是需要進行拼接的,所以只能手動進行拼接)

3、選擇存儲方式

  我代碼里面沒有寫存儲方式,但是我一般使用mongodb比較多,所以就可以直接將數據保存到mongo中

 

具體代碼在:https://github.com/1213William/toutiao_spider


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM