【Python爬蟲】:爬取(谷歌/百度/搜狗)的搜索結果


步驟如下:
1.首先導入爬蟲的package:requests

2.使用UA 偽裝進行反反爬蟲,將爬蟲偽裝成一個瀏覽器進行上網

3.通過尋找,找到到谷歌搜索時請求的url。

假設我們在谷歌瀏覽器當中輸入:不知道

我們可以得到請求結果的網址如下:

 

 也就是:

https://www.google.com/search?q=%E4%B8%8D%E7%9F%A5%E9%81%93&rlz=1C1CHWL_zh-CNAU918AU918&oq=%E4%B8%8D%E7%9F%A5%E9%81%93&aqs=chrome.0.69i59l2.885j0j1&sourceid=chrome&ie=UTF-

在這個網址當中,問號“?”后面的則是這次請求的參數,將問號前面的網址拿下來,放到代碼里。后面的參數我們可以代碼進行人為的定義,這樣我們就可以使用爬蟲爬取任意搜索結果的html網頁了。

剪輯后的url如下:

url='https://www.google.com/search'

?問號后面的“q=不知道”可以作為我們傳入給谷歌搜索引擎的參數,因此可以編寫代碼:

param={
    'q':kw
}

這樣程序就可以自己知道搜索引擎后面跟隨的參數是什么了。我們就可以傳遞進一個我們想要的kw進去即可。

完整的程序如下:

import requests

headers={
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.83 Safari/537.36'
}

url='https://www.google.com/search'
#處理url所攜帶的參數,將其封裝到字典當中
kw=input("enter a word:")
param={
    'q':kw
}
#對指定url發起的請求url是攜帶參數的
response=requests.get(url=url,params=param,headers=headers)
page_text=response.text
print(page_text)
file_name=kw+'.html'
with open(file_name,'w',encoding='utf-8') as fp:
    fp.write(page_text)

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM