注:注釋寫的比較清楚,大家觀看方便,寫的不難,可以直接讀懂
在進行抓取淘寶商品時,我們可以通過抓包的方式進行分析,選擇抓取手機端的最好了,數據沒那么多,簡單,
分析工具Fiddler2
在分析中我們可以清晰的發現加載都是post方式進行傳入相關搜索的數據,然后給你josn的數據,
如下圖:
那么既然分析完成后我們直接可以上代碼了
#coding=utf8 import urllib import urllib2 import lxml.etree import tool_headers #1.設置請求搜索關鍵詞 postdate="滑膜炎" #2.設置請求鏈接為手機端淘寶,並且對url進行轉碼和關鍵詞追加(此鏈接可以簡寫 明天再搞) url="https://s.m.taobao.com/search?event_submit_do_new_search_auction=1&_input_charset=utf-8&topSearch=1&atype=b&searchfrom=1&action=home%3Aredirect_app_action&from=1&q=%E6%BB%91%E8%86%9C%E7%82%8E&sst=1&n=20&buying=buyitnow&m=api4h5&abtest=11&wlsort=11&page=1 " #3.設置data數據 postdatas={ "event_submit_do_new_search_auction":1, "_input_charset":"utf-8", "topSearch":"1", "atype":"b", "searchfrom":"1", "action":"home:redirect_app_action", "from":"1", "q":postdate, "sst":"1", "n":"20", "buying":"buyitnow", "m":"api4h5", "abtest":"11", "wlsort":"11", "page":"1" } date = urllib.urlencode(postdatas) #3.發送請求 獲取請求數據 request = urllib2.Request(url=url,data=date,headers=tool_headers.tool_headers()) re = urllib2.urlopen(request) html = re.read() # print(html) #4.獲取數據 print(html)