前段時間做商品評價的語義分析,需要大量的電商數據,於是乎就自己動手爬取京東的數據。第一次接觸爬蟲是使用selenium爬取CNKI的摘要,基於慣性思維的我仍然想用selenium+Firefox的方法爬取京東上的數據。代碼就這樣以selenium為框架寫好了,但是效果一如既往的差,主要是耗時真的是太久了,即使是選擇不加載圖片等內容仍然有時效性的問題,所以我選擇了scrapy爬取京東的電商數據。由於京東在頁面展示的數據是后端分頁,所以頁面的URL不變而頁面的內容隨着一次次的請求而不斷加載。如何獲得動態網頁的URL是本博客的重點,下面是如何獲取京東網頁URL的具體方法。希望借着這個例子讓更多的人知道怎么獲取動態頁面URL。
1、在Chrome中打開我們我們需要的電商頁面,比如:
2、 選擇“商品評論”
3、 按電腦的F12鍵,在電腦的右半欄框中選擇Network按鍵
(PS:如果沒有顯示內容,按F5刷新)
4、 在輸入框中輸入json
5、 在Network中出現的json文件里面會含有我們需要的評論數據
6、 對含有所需評論的文件單擊右鍵,選擇“Open in new tab”,則地址欄中的URL就是此時此刻真正的URL
(PS:為了更好在chrome中展示網頁源碼,建議下載插件JSON-handle)
7、 此處的URL是有規律的,多試幾次就會找到!這樣我們就可以很輕松的使用scrapy爬取京東商品評價數據了(親測,有效)!