【Python爬蟲】：爬取（谷歌/百度/搜狗）的搜索結果

本文轉載自查看原文 2021-01-11 13:44 1263 Python爬蟲

步驟如下：
1.首先導入爬蟲的package：requests

2.使用UA 偽裝進行反反爬蟲，將爬蟲偽裝成一個瀏覽器進行上網

3.通過尋找，找到到谷歌搜索時請求的url。

假設我們在谷歌瀏覽器當中輸入：不知道

我們可以得到請求結果的網址如下：

也就是：

https://www.google.com/search?q=%E4%B8%8D%E7%9F%A5%E9%81%93&rlz=1C1CHWL_zh-CNAU918AU918&oq=%E4%B8%8D%E7%9F%A5%E9%81%93&aqs=chrome.0.69i59l2.885j0j1&sourceid=chrome&ie=UTF-

在這個網址當中，問號“？”后面的則是這次請求的參數，將問號前面的網址拿下來，放到代碼里。后面的參數我們可以代碼進行人為的定義，這樣我們就可以使用爬蟲爬取任意搜索結果的html網頁了。

剪輯后的url如下：

url='https://www.google.com/search'

？問號后面的“q=不知道”可以作為我們傳入給谷歌搜索引擎的參數，因此可以編寫代碼：

param={
    'q':kw
}

這樣程序就可以自己知道搜索引擎后面跟隨的參數是什么了。我們就可以傳遞進一個我們想要的kw進去即可。

完整的程序如下：

import requests

headers={
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.83 Safari/537.36'
}

url='https://www.google.com/search'
#處理url所攜帶的參數，將其封裝到字典當中
kw=input("enter a word：")
param={
    'q':kw
}
#對指定url發起的請求url是攜帶參數的
response=requests.get(url=url,params=param,headers=headers)
page_text=response.text
print(page_text)
file_name=kw+'.html'
with open(file_name,'w',encoding='utf-8') as fp:
    fp.write(page_text)

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 python爬取百度谷歌搜索結果爬蟲-python（三）百度搜索關鍵詞后爬取搜索結果 python爬取百度搜索結果url匯總 Python爬取百度指數中的搜索指數 python爬取百度搜索圖片 python爬蟲之爬取百度圖片 Python 爬蟲實例（14）爬取百度音樂【python爬蟲】之爬取百度首頁 python爬蟲-動態爬取百度遷徙 python爬蟲之爬取動態加載的圖片_百度