說到網站數據的爬取,目前為止我見過最復雜的就是天貓了,現在我想對它進行整站的爬取
我們先來看下天貓主頁的界面
天貓頁面很明顯是動態頁面 所以我們需要用selenium模塊
首先我們抓取下行業列表,留作之后的深度爬取
我們來看下結果:
看到商品鏈接和行業列表的完美展現了吧
可是當前頁面並沒抓取完畢,我們現在看下首頁還有什么內容
我們順帶抓取下發先並沒有我們想要的東西,說明頁面沒有抓取完畢,熟悉網站制作的同僚們因該知道這樣的頁面都是用OVERFLOW:hidden的方式來做的布局,所以我們可以利用JS的SCOLLER事件來進行動態加載獲取當前整個頁面的源碼
我們把打印的源碼拿下來分析下抓取優惠卷的價格和提供商品的價格
由於我的網絡和設置的數值過大所以數據加載的不完整:
看下結果:
好好調整一下 就可以獲取所有數據