python爬蟲防止IP被封的一些措施

本文轉載自查看原文 2019-11-19 16:52 335 種田技術

在編寫爬蟲爬取數據的時候，因為很多網站都有反爬蟲措施，所以很容易被封IP，就不能繼續爬了。在爬取大數據量的數據時更是瑟瑟發抖，時刻擔心着下一秒IP可能就被封了。

本文就如何解決這個問題總結出一些應對措施，這些措施可以單獨使用，也可以同時使用，效果更好。

在請求頭中把User-Agent設置成瀏覽器中的User-Agent，來偽造瀏覽器訪問。比如：

headers = { 'User-Agent':'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/52.0.2743.116 Safari/537.36'}
resp = requests. get(url,headers = headers)

還可以先收集多種瀏覽器的User-Agent，每次發起請求時隨機從中選一個使用，可以進一步提高安全性：

In [ 7]: import requests,random
In [ 8]: user_agents = ['Mozilla/5.0 (Windows NT 6.1; rv:2.0.1) Gecko/20100101 Firefox/4.0.1','Mozilla/5.0 (Windows; U; Windows NT 6.1; en-us) AppleWebKit/534.50 (KHTML, like Gecko) Version/5.1 Safari/534.50','Opera/9.80 (Windows NT 6.1; U; en) Presto/2.8.131 Version/11.11']
In [ 9]: def get_html(url):
...: headers = { 'User-Agent':random.choice(user_agents)}
...: resp = requests.get(url,headers = headers)
...: return resp.text

把上面隨機選擇一個User-Agent的代碼封裝成一個函數：

import random
def get_headers():
'''
隨機獲取一個headers
'''
user_agents = [ 'Mozilla/5.0 (Windows NT 6.1; rv:2.0.1) Gecko/20100101 Firefox/4.0.1','Mozilla/5.0 (Windows; U; Windows NT 6.1; en-us) AppleWebKit/534.50 (KHTML, like Gecko) Version/5.1 Safari/534.50','Opera/9.80 (Windows NT 6.1; U; en) Presto/2.8.131 Version/11.11']
headers = { 'User-Agent':random.choice(user_agents)}
return headers

注：一些常見瀏覽器的User-Agent可參見：https://blog.csdn.net/qianxing111/article/details/79415857

若從瀏覽器中可以正常訪問一個頁面，則可以將瀏覽器中的cookies復制過來使用，比如：

cookies = dict(uuid= 'b18f0e70-8705-470d-bc4b-09a8da617e15',UM_distinctid='15d188be71d50-013c49b12ec14a-3f73035d-100200-15d188be71ffd')
resp = requests.get(url,cookies = cookies)
# 把瀏覽器的cookies字符串轉成字典
def cookies2dict(cookies):
items = cookies.split( ';')
d = {}
for item in items:
kv = item.split( '=',1)
k = kv[ 0]
v = kv[ 1]
d[k] = v
return d

注：用瀏覽器cookies發起請求后，如果請求頻率過於頻繁仍會被封IP，這時可以在瀏覽器上進行相應的手工驗證（比如點擊驗證圖片等），然后就可以繼續正常使用該cookies發起請求。

可以換着用多個代理IP來進行訪問，防止同一個IP發起過多請求而被封IP，比如：

proxies = { 'http':'http://10.10.10.10:8765','https':'https://10.10.10.10:8765'}
resp = requests. get(url,proxies = proxies)
# 注：免費的代理IP可以在這個網站上獲取：http://www.xicidaili.com/nn/

道高一尺魔高一丈，你有反爬蟲措施，那我也有各種"反反爬蟲"的措施，GitHub上就有一位大神專門整理了一個這樣的項目：Anti-Anti-Spider，鏈接地址為：
https://github.com/luyishisi/Anti-Anti-Spider
可以研究一下。

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 $python爬蟲防止IP被封的一些措施 python 爬蟲經常需要睡眠防止被封IP time sleep Kafka 一些優化措施爬蟲-IP被封解決辦法避免網絡爬蟲IP被封的策略 python爬蟲18 | 就算你被封了也能繼續爬，使用IP代理池偽裝你的IP地址，讓IP飄一會爬蟲被封IP了怎么辦-爬蟲與反爬蟲的“世世情緣” python爬蟲數據采集ip被封一篇解決 python爬蟲17 | 聽說你又被封 ip 了，你要學會偽裝好自己，這次說說偽裝你的頭部爬蟲速度優化、Python多線程、adsl撥號解決ip被封問題