1、分析今日頭條
在看頭條的時候可以發現展示出來的頁面的數據都是一些封裝過的js代碼或者css代碼,所以這時候就需要考慮頁面的數據是不是封裝在cookie里面了
回過頭去看cookie就可以發現有一個s_v_web_id的cookie字段,然后上去一試就得到了當前網頁的真是源代碼,所以我們就可以根據這個cookie和網址一起想服務端發送過去以來獲得真實的數據
2、選取合適的方法來爬
當我們獲得了真實的數據以后,要走的就是解析這里面的內容了,我又定睛一看,發現我要的所有信息都放在了data這個字典里面了,所以我就循環data,然后獲得里面的title和id(要記住這里面的id是需要進行拼接的,所以只能手動進行拼接)
3、選擇存儲方式
我代碼里面沒有寫存儲方式,但是我一般使用mongodb比較多,所以就可以直接將數據保存到mongo中
