python網頁爬蟲--京東家電版塊

本文轉載自查看原文 2015-12-10 17:05 1354 python爬蟲

雙十二就要到了，瀏覽京東商城也瀏覽的比較多，突然想到寫一個爬蟲來爬取一些“京東家電”的數據，可能會對雙十二的活動有點預見性，也挺好玩的。

1、選定爬取的模塊京東商城--京東家電--家用電器--大家電

2、爬取“平板電視”這一模塊的數據

我用的是火狐瀏覽器的HttpFox插件來查看網頁的加載信息。當進入“平板電視”這一模塊的時候，網頁的加載信息是這樣的：

打開第一個“GET”進來的網頁信息，然后查看該加載的網頁的“Header”信息，發現該網頁是重新加載的，從“Referer”可看出該網頁的新的鏈接：

3、打開"Referer"的鏈接信息，驗證一下：

4、打開幾個商品的鏈接，發現網頁的URL有一定的規律，像是這樣的網址：

地址中只是數字發生着變化，所以這一定有貓膩，所以進一步去觀察HttpFox的信息。

下面是加載“平板電視”電視的時候，HttpFox生成的信息，找到第一條的json信息，發現了需要得到的數字：

5、將網頁往下拉，可以看到分頁，這就自己觀察URL就可以了，簡單的規律，每頁的URL改變的只是頁碼的數字。

6、所以爬蟲的大體思路就出來了：

　　（1）獲取json數值

　　（2）組合生成xpath

　　（3）匹配信息

　　（4）去重、規整等處理數據

　　（5）數據導到本地

7、這樣我們就可以爬取23頁的數據了，而且其他的京東網頁做小的修改就可以了。下面該上代碼了：不知道今晚能不能寫出來~

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 Python之爬蟲-京東商品 Python網絡爬蟲——京東商城商品列表 Python網頁爬蟲（一） python爬蟲——什么值得買平台家電可視化數據分析 python爬蟲-京東商品爬取基於python的批量網頁爬蟲 Python爬蟲之解析網頁 Python爬蟲與一汽項目【一】爬取中海油，郵政，國家電網問題總結 Python爬蟲之網頁獲取與網頁解析 python 網頁爬蟲基礎篇