Python 爬蟲知識點 - 淘寶商品檢索結果抓包分析

本文轉載自查看原文 2016-12-14 22:16 1711 數據分析/ 搜索技術/ Python/ 爬蟲基礎

一、抓包基礎

　　在淘寶上搜索“Python機器學習”之后，試圖抓取書名、作者、圖片、價格、地址、出版社、書店等信息，查看源碼發現html-body中沒有這些信息，分析腳本發現，數據存儲在了g_page_config變量之中，初步分析需要采用抓包技術來獲取其他頁的數據。以前使用Fiddler非常方便，今天出奇的怪，總是掛掉。經度娘得知還有WireShark神器，可安裝后發現太過底層。最后使用瀏覽器自帶的開發者工具，先前僅用到了調試前端頁面。如下圖：

數據存儲區域：

開發者工具抓包界面：

二、抓包分析

　　1、在搜索結果頁，切換頁，跟蹤頁面元素的加載時間，如果時長最長，則有可能是獲取數據的鏈接，連續切換兩頁之后，發現search地址數據量最大，加載時間最長，初步判斷此處有可能是后台獲取數據的請求地址。

　　2、點擊鏈接后出現幾個選項卡，有助於分析返回的數據，如下圖：

　　3、點擊Response，搜索某書店名稱，發現確實能搜索到該書店，則可以確認，通過構建此地址，應該是能夠獲得查詢結果數據。

　　4、連續切換頁碼，得到連續的Url，將這些Url拷貝到文件中加以分析。S有可能是當前頁顯示的數量，data-value表示在上一頁的基礎之上，增加S個，如44+44=88，88+44=132，132+44=176，基於上述規則構建的URL，在瀏覽器中查詢測試。

　　未完待續......

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 Python 爬蟲知識點 - 淘寶商品檢索結果抓包分析（續一） Python 爬蟲知識點 Python 爬蟲知識點 - XPath python爬蟲需要掌握哪些知識點 python爬蟲知識點總結（二）爬蟲的基本原理【Python爬蟲】淘寶商品比價定向爬蟲 Python爬蟲知識點——Chrome開發者工具Network Python爬蟲獲得淘寶商品評論 Python爬蟲之定時搶購淘寶商品天貓、淘寶商品詳情、庫存、價格抓包