寫了個爬蟲代理ip的腳本給大家使用

一.代碼

import requests
from lxml.html import etree


url = 'http://www.kuaidaili.com/free/'
rp =requests.get(url)
rp_html = etree.HTML(rp.text)

#找xpath
ip_xpath = '//*[@id="list"]/table/tbody/tr/td[1]/text()'
port_xpath = '//*[@id="list"]/table/tbody/tr/td[2]/text()'
http_or_https_xpath ='//*[@id="list"]/table/tbody/tr/td[4]/text()'

#匹配內容
ip_list = rp_html.xpath(ip_xpath)
port_list = rp_html.xpath(port_xpath)
http_or_https_list = rp_html.xpath(http_or_https_xpath)

#進行組合
list_zip = zip(ip_list,port_list,http_or_https_list)
proxy_dict= {}
proxy_list = []
for ip,port,http_or_https in list_zip:
    proxy_dict[http_or_https] = f'{ip}:{port}'
    proxy_list.append(proxy_dict)
    proxy_dict = {}
print(proxy_list)
#list就是啦,你們可以用random模塊隨機選一個進行后續的爬取

#一頁不夠嘛那我們就爬十寫
#先看規則
'''
第一頁:https://www.kuaidaili.com/free/inha/1/
第二頁: https://www.kuaidaili.com/free/inha/2/
后面就不用說了吧
'''

http://www.kuaidaili.com/free/這個ip代理網站不錯哈

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 python爬蟲requests使用代理ip Python 爬蟲入門（二）—— IP代理使用爬蟲IP代理池 python爬蟲-代理的使用爬蟲—代理的使用 HttpClient使用代理IP requests使用代理ip 簡單爬蟲-爬取免費代理ip 反爬蟲之搭建IP代理池 Python網絡爬蟲(session與ip代理池)