這次我們來繼續深入爬蟲數據,有些網頁通過請求的html代碼不能直接拿到數據,我們所需的數據是通過ajax渲染到頁面上去的,這次我們來看看如何分析ajax
我們這次所使用的網絡庫還是上一節的Requests,結果用到mongodb來存儲(需要提前安裝pymongo庫),開啟多線程爬。
分析:有很多網頁打開以后,我們得到html源碼並不能得到我們想要的數據,這時網站很有可能是通過ajax來加載的數據。
我們打開調試模式F12,點擊NetWork,我們來分析我所要的數據藏在哪里
我們可以看到我們所需要的數據是通過ajax加載出來的。
項目一:分析Ajax來抓取今日頭條街拍美圖
代碼地址:https://gitee.com/dwyui/toutiao_jiepai.git
簡單看一下我們的運行結果: