python網頁爬蟲--京東家電版塊


雙十二就要到了,瀏覽京東商城也瀏覽的比較多,突然想到寫一個爬蟲來爬取一些“京東家電”的數據,可能會對雙十二的活動有點預見性,也挺好玩的。

1、選定爬取的模塊  京東商城--京東家電--家用電器--大家電

2、爬取“平板電視”這一模塊的數據

我用的是火狐瀏覽器的HttpFox插件來查看網頁的加載信息。當進入“平板電視”這一模塊的時候,網頁的加載信息是這樣的:

 

打開第一個“GET”進來的網頁信息,然后查看該加載的網頁的“Header”信息,發現該網頁是重新加載的,從“Referer”可看出該網頁的新的鏈接:

3、打開"Referer"的鏈接信息,驗證一下:

 

 

4、打開幾個商品的鏈接,發現網頁的URL有一定的規律,像是這樣的網址:

地址中只是數字發生着變化,所以這一定有貓膩,所以進一步去觀察HttpFox的信息。

下面是加載“平板電視”電視的時候,HttpFox生成的信息,找到第一條的json信息,發現了需要得到的數字:

5、將網頁往下拉,可以看到分頁,這就自己觀察URL就可以了,簡單的規律,每頁的URL改變的只是頁碼的數字。

6、所以爬蟲的大體思路就出來了:

  (1)獲取json數值

  (2)組合生成xpath

  (3)匹配信息

  (4)去重、規整等處理數據

  (5)數據導到本地

7、這樣我們就可以爬取23頁的數據了,而且其他的京東網頁做小的修改就可以了。下面該上代碼了:不知道今晚能不能寫出來~


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM