雙十二就要到了,瀏覽京東商城也瀏覽的比較多,突然想到寫一個爬蟲來爬取一些“京東家電”的數據,可能會對雙十二的活動有點預見性,也挺好玩的。
1、選定爬取的模塊 京東商城--京東家電--家用電器--大家電
2、爬取“平板電視”這一模塊的數據
我用的是火狐瀏覽器的HttpFox插件來查看網頁的加載信息。當進入“平板電視”這一模塊的時候,網頁的加載信息是這樣的:
打開第一個“GET”進來的網頁信息,然后查看該加載的網頁的“Header”信息,發現該網頁是重新加載的,從“Referer”可看出該網頁的新的鏈接:
3、打開"Referer"的鏈接信息,驗證一下:
4、打開幾個商品的鏈接,發現網頁的URL有一定的規律,像是這樣的網址:
地址中只是數字發生着變化,所以這一定有貓膩,所以進一步去觀察HttpFox的信息。
下面是加載“平板電視”電視的時候,HttpFox生成的信息,找到第一條的json信息,發現了需要得到的數字:
5、將網頁往下拉,可以看到分頁,這就自己觀察URL就可以了,簡單的規律,每頁的URL改變的只是頁碼的數字。
6、所以爬蟲的大體思路就出來了:
(1)獲取json數值
(2)組合生成xpath
(3)匹配信息
(4)去重、規整等處理數據
(5)數據導到本地
7、這樣我們就可以爬取23頁的數據了,而且其他的京東網頁做小的修改就可以了。下面該上代碼了:不知道今晚能不能寫出來~