爬蟲-python（三）百度搜索關鍵詞后爬取搜索結果

本文轉載自查看原文 2020-12-25 11:28 652 爬蟲

9點49，老婆孩子都睡着了，繼續搞。

第1篇寫了訪問百度並打印頁面源碼，似乎沒什么實際意義，這次弄個有點用的，就是百度中輸入指定關鍵詞后搜索，然后獲取搜索結果第一頁（翻頁后面會陸續寫）。

比如我們輸入‘博客園’，下面是查詢結果：

這個時候我們看下瀏覽器中url地址，大概是這個樣子的

好老長，我們去除掉一些看不懂的部分，只保留ie 和wd 這2個參數試下能否正常訪問

可以的訪問，現在我們把這個url復制到代碼中看下

https://www.baidu.com/s?ie=utf-8&wd=%E5%8D%9A%E5%AE%A2%E5%9B%AD

發現變化了沒，wd=博客園變成了 wd= %E5%8D%9A%E5%AE%A2%E5%9B%AD,這個是瀏覽器對url做了編碼轉換。

所以當寫爬蟲時也需要將含中文或者特殊字符的關鍵詞參數做編碼轉換，上代碼：

from urllib.request import urlopen from urllib.request import Request from fake_useragent import UserAgent from urllib.parse import urlencode #設置request header ua = UserAgent() headers = { "User-Agent":ua.random } #拼接url args = { "ie":"utf-8", "wd":"博客園" } url = "https://www.baidu.com/s?{}".format(urlencode(args)) #封裝request request = Request(url,headers=headers) # 發送請求，獲取服務器給的響應 response = urlopen(request) # 讀取結果,無法正常顯示中文 html = response.read() # 進行解碼操作，轉為utf-8 html_decode = html.decode() # 打印結果 print(html_decode)

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 使用php的curl根據關鍵詞爬取百度搜索結果頁使用python抓取百度搜索、百度新聞搜索的關鍵詞個數 python+selenium實現自動化百度搜索關鍵詞 Python：輸入關鍵字進行百度搜索並爬取搜索結果 python requests庫網頁爬取小實例：百度/360搜索關鍵詞提交 python爬取百度搜索結果url匯總 python爬取百度搜索圖片 js 獲取百度搜索關鍵詞的代碼 php獲取從百度搜索進入網站的關鍵詞 02_輸入檢索詞自動爬取百度搜索頁標題信息

爬蟲-python（三） 百度搜索關鍵詞后爬取搜索結果

免責聲明！

爬蟲-python（三）百度搜索關鍵詞后爬取搜索結果