爬蟲--今日頭條

本文轉載自查看原文 2019-09-08 14:56 349 spider

1、分析今日頭條

　　在看頭條的時候可以發現展示出來的頁面的數據都是一些封裝過的js代碼或者css代碼，所以這時候就需要考慮頁面的數據是不是封裝在cookie里面了

　　回過頭去看cookie就可以發現有一個s_v_web_id的cookie字段，然后上去一試就得到了當前網頁的真是源代碼，所以我們就可以根據這個cookie和網址一起想服務端發送過去以來獲得真實的數據

2、選取合適的方法來爬

　　當我們獲得了真實的數據以后，要走的就是解析這里面的內容了，我又定睛一看，發現我要的所有信息都放在了data這個字典里面了，所以我就循環data，然后獲得里面的title和id（要記住這里面的id是需要進行拼接的，所以只能手動進行拼接）

3、選擇存儲方式

　　我代碼里面沒有寫存儲方式，但是我一般使用mongodb比較多，所以就可以直接將數據保存到mongo中

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 爬蟲（二）爬取今日頭條圖片爬蟲—分析Ajax爬取今日頭條圖片 python 爬蟲抓取今日頭條街拍圖片 python爬蟲—— 抓取今日頭條的街拍的妹子圖今日頭條廣告投放 Go -- 今日頭條架構今日頭條面試經歷 python抓取今日頭條今日頭條面經匯總 Python爬蟲 | 批量爬取今日頭條街拍美圖