Python 爬蟲知識點 - 淘寶商品檢索結果抓包分析


一、抓包基礎

  在淘寶上搜索“Python機器學習”之后,試圖抓取書名、作者、圖片、價格、地址、出版社、書店等信息,查看源碼發現html-body中沒有這些信息,分析腳本發現,數據存儲在了g_page_config變量之中,初步分析需要采用抓包技術來獲取其他頁的數據。以前使用Fiddler非常方便,今天出奇的怪,總是掛掉。經度娘得知還有WireShark神器,可安裝后發現太過底層。最后使用瀏覽器自帶的開發者工具,先前僅用到了調試前端頁面。如下圖:

 數據存儲區域:

 

開發者工具抓包界面:

 

、抓包分析

   1、在搜索結果頁,切換頁,跟蹤頁面元素的加載時間,如果時長最長,則有可能是獲取數據的鏈接,連續切換兩頁之后,發現search地址數據量最大,加載時間最長,初步判斷此處有可能是后台獲取數據的請求地址。

  2、點擊鏈接后出現幾個選項卡,有助於分析返回的數據,如下圖:

  3、點擊Response,搜索某書店名稱,發現確實能搜索到該書店,則可以確認,通過構建此地址,應該是能夠獲得查詢結果數據。

  4、連續切換頁碼,得到連續的Url,將這些Url拷貝到文件中加以分析。S有可能是當前頁顯示的數量,data-value表示在上一頁的基礎之上,增加S個,如44+44=88,88+44=132,132+44=176,基於上述規則構建的URL,在瀏覽器中查詢測試。

 

  未完待續......

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM