1通過分析搜索關鍵詞對應的網址發現字段名和內容均在網址中網址可簡化為www.baidu.com/s?wd=搜索的關鍵詞
根據分析出的規律可通過構造get請求用爬蟲實現在百度上自動查詢某個關鍵詞
代碼如下:
import urllib.request 導入urllib.request
keywd = '高同同' 指定關鍵詞
keywd_cod = urllib.request.quote(keywd)將關鍵詞進行編碼
url = 'https://www.baidu.com/s?wd='輸入網址
url_all = url +keywd_cod構造出最終抓取網址
req =urllib.request.Request(url)使用urllib.request.Request構造一個Request對象並賦給變量req
data = urllib.request.urlopen(req).read()通過url.request.urlopen()打開對應的Request對象
fandle = open('D:/siq/part4/10.html','wb')
fandle.write(data)
將爬去的內容寫到一個html文件中
fandle.close()結束
思路總結:
1構建對應的url地址,該url包含get請求的字段名稱及字段內容等信息並且url地址滿足get請求格式“http://網址?字段名1=字段內容1&字段名2=字段內容2”
2以對應的url為參數,構建request對象
3通過urlopen()打開構建的request對象
4讀取內容並保存
