一、抓包基礎
在淘寶上搜索“Python機器學習”之后,試圖抓取書名、作者、圖片、價格、地址、出版社、書店等信息,查看源碼發現html-body中沒有這些信息,分析腳本發現,數據存儲在了g_page_config變量之中,初步分析需要采用抓包技術來獲取其他頁的數據。以前使用Fiddler非常方便,今天出奇的怪,總是掛掉。經度娘得知還有WireShark神器,可安裝后發現太過底層。最后使用瀏覽器自帶的開發者工具,先前僅用到了調試前端頁面。如下圖:
數據存儲區域:
開發者工具抓包界面:
二、抓包分析
1、在搜索結果頁,切換頁,跟蹤頁面元素的加載時間,如果時長最長,則有可能是獲取數據的鏈接,連續切換兩頁之后,發現search地址數據量最大,加載時間最長,初步判斷此處有可能是后台獲取數據的請求地址。
2、點擊鏈接后出現幾個選項卡,有助於分析返回的數據,如下圖:
3、點擊Response,搜索某書店名稱,發現確實能搜索到該書店,則可以確認,通過構建此地址,應該是能夠獲得查詢結果數據。
4、連續切換頁碼,得到連續的Url,將這些Url拷貝到文件中加以分析。S有可能是當前頁顯示的數量,data-value表示在上一頁的基礎之上,增加S個,如44+44=88,88+44=132,132+44=176,基於上述規則構建的URL,在瀏覽器中查詢測試。
未完待續......