python获取代理ip与端口

本文转载自查看原文 2019-07-17 18:23 524

在我们使用python爬虫获取所需资源时，如果被发现违规行为，有可能会被对方服务器禁止本地ip访问，所以获取代理ip与端口进行访问可以预防部分危险，但是一个一个搜索查找代理ip与端口，程序效率太低，因此使用程序获取代理ip与端口是一个好选择。

 1 import urllib.request  2 import re  3 
 4 # 正则匹配规则
 5 regip = "<td>((?:(?:1[0-9][0-9]\.)|(?:2[0-4][0-9]\.)|(?:25[0-5]\.)|(?:[1-9][0-9]\.)|(?:[0-9]\.)){3}(?:(?:1[0-9][0-9])|(?:2[0-4][0-9])|(?:25[0-5])|(?:[1-9][0-9])|(?:[0-9])))</td>"
 6 regport = "<td>(\d{2}|\d{3}|\d{4}|\d{5})</td>"
 7 
 8 # 伪装浏览器头信息
 9 header = ("User-Agent", 'Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0') 10 opener = urllib.request.build_opener() 11 opener.addheaders = [header] 12 urllib.request.install_opener(opener) 13 
14 
15 # 从https://www.xicidaili.com/wn网站获取代理ip
16 def get_ip(m=0, i=1): 17     url = "https://www.xicidaili.com/wn/"+str(i) 18     data = urllib.request.urlopen(url).read().decode("utf-8", "ignore") 19     ListIp = re.compile(regip).findall(data) 20     return ListIp[m] 21 
22 
23 # 从https://www.xicidaili.com/wn网站获取代理端口
24 def get_port(m=0, i=1): 25     url = "https://www.xicidaili.com/wn/"+str(i) 26     data = urllib.request.urlopen(url).read().decode("utf-8", "ignore") 27     ListPort = re.compile(regport).findall(data) 28     return ListPort[m]

值得一提的是，其中的m值为网站的页码数，i表示第几条数据，使用时尽量使ip与port的i值相同。

由于https://www.xicidaili.com/wn/网页的布局，所以i尽量不要超过100.当然，参数i和m也不能出现负数。

具体怎么导入，怎么使用，相信不需要我多说了，都是基础中的基础。

免责声明！

本站转载的文章为个人学习借鉴使用，本站对版权不负任何法律责任。如果侵犯了您的隐私权益，请联系本站邮箱yoyou2525@163.com删除。

猜您在找 python 获取取代理IP并验证可用性 python获取代理IP并测试是否可用 python爬取代理ip python 批量爬取代理ip python爬虫爬取代理IP Python爬虫之反爬虫（随机user-agent，获取代理ip，检测代理ip可用性）抓取代理IP python——代理ip获取 python爬虫：自动投票代码（自动爬取代理IP）使用python 多线程爬取代理ip