用python 3.0寫了一個爬取代理ip地址的小工具,提供給需要代理ip地址制作爬蟲的人。
Proxy_IPv0.1的功能有兩個:
1.顯示代理(響應速度快,但不能保證全部有效);
2.顯示有效代理並保存為proxy_ip.txt文件(執行速度較慢,但proxy_ip.txt文件中的代理ip地址全部有效)。
爬取的眾多代理IP可以作為爬蟲的IP地址,防止本地IP或單一代理ip作為爬蟲ip被目標網址屏蔽。
另因為不太熟悉多線程,所以目前版本的驗證代理IP有效性的速度會比較慢,后期可能會略作修改,變成多線程驗證節省時間。被爬取的網站中,一個頁面包含100個代理IP地址,經過驗證,基本全部有效,目標網站提供的代理ip可用性很高。
驗證代理ip
proxy_ip.txt文件中的代理ip格式保存為'http'/'https':'xxx.xxx.xxx.xxx:xxx'格式,方便復制粘貼成代理列表
代碼已上傳到https://github.com/BaiFanJiuShuang/Proxy_IP