Python爬蟲實戰——反爬策略之代理IP【無憂代理】

本文轉載自查看原文 2019-12-25 10:21 704 爬蟲/ urllib/ 第三方庫/ Python

一般情況下，我並不建議使用自己的IP來爬取網站，而是會使用代理IP。
原因很簡單：爬蟲一般都有很高的訪問頻率，當服務器監測到某個IP以過高的訪問頻率在進行訪問，它便會認為這個IP是一只“爬蟲”，進而封鎖了我們的IP。

那我們爬蟲對IP代理的要求是什么呢？

1、代理IP數量較多，可以減低被封鎖的概率；
2、IP生命周期較短，因為沒錢o(´^｀)o。

接下來，就講一下從購買代理IP到urllib配置代理IP的全過程。

購買代理IP：

代理IP的中間商有很多，我們以無憂代理為例。
在這里插入圖片描述

這里共有4套餐，我們選擇第一個“￥10”套餐，進入詳情界面：
竟然更便宜了，只要8.5？？？買！
（我真的沒拿無憂代理的廣告費......）
購買成功之后，我們點擊“創建API接口”：
獲取HTTP爬蟲代理IP的API鏈接：

配置代理IP：

我們先調用下接口試一下：

import urllib.request as ur

proxy_address = ur.urlopen('http://api.ip.data5u.com/dynamic/get.html?order=d314e5e5e19b0dfd19762f98308114ba&sep=4').read()
print(proxy_address)

由於返回結果為字節，我們還需對其進行utf-8格式轉換，以及去空格：

proxy_address = proxy_address.decode('utf-8').strip()

輸出如下：
在這里插入圖片描述

創建proxy_handler：

proxy_handler = ur.ProxyHandler(
    {
        'http': proxy_address
    }
)

新建opener對象：

proxy_opener = ur.build_opener(proxy_handler)

使用代理IP進行訪問並輸出：

request = ur.Request(url='https://edu.csdn.net/')
# open == urlreponse，只是進行了代理IP封裝
reponse = proxy_opener.open(request).read().decode('utf-8')
print(reponse)

輸出如下：
在這里插入圖片描述

全文完整代碼：

import urllib.request as ur

proxy_address = ur.urlopen('http://api.ip.data5u.com/dynamic/get.html?order=d314e5e5e19b0dfd19762f98308114ba&sep=4').read().decode('utf-8').strip()
# print(proxy_address)

# 創建proxy_handler
proxy_handler = ur.ProxyHandler(
    {
        'http': proxy_address
    }
)
# 新建opener對象
proxy_opener = ur.build_opener(proxy_handler)

request = ur.Request(url='https://edu.csdn.net/')
# open == urlreponse，只是進行了代理IP封裝
reponse = proxy_opener.open(request).read().decode('utf-8')
print(reponse)

為我心愛的女孩~~

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 python爬蟲爬取代理IP Python爬蟲實戰——反爬機制的解決策略【阿里】無憂代理免費ip爬取（端口js加密） python3.5爬蟲實例：根據網站的反爬蟲策略，啟用代理來防止爬蟲被禁用反爬蟲之搭建IP代理池 python爬蟲西刺代理ip爬取 Python爬蟲之爬取小幻HTTP 代理 ip python爬蟲：自動投票代碼（自動爬取代理IP） Python爬蟲之反爬蟲（隨機user-agent，獲取代理ip，檢測代理ip可用性） python爬取代理ip