有的时候要获取网站的上显示一些信息,如招聘网站在招聘的公司需要的岗位,公司的名称,公司的地址,但一个个岗位点进去拿公司的地址,加载时间太长
通过抓包发现具体的信息在某一个ajax请求里面已经全返回出来了,在页面只显示了一小部分
或者某个网站登录之后需要某个token去调api
这个时候就可以使用selenium wire,直接拿取某个请求返回的数据,或传入的参数
1.环境要求
Python 3.6 +
Selenium 3.4.0 +
2.安装
pip install selenium-wire
3.示例
from seleniumwire import webdriver driver = webdriver.Chrome() driver.get('https://www.baidu.com') # 通过requests属性访问请求 for request in driver.requests: if request.response: print("Url:", request.url) print("Code:", request.response.status_code) print("Content-Type:", request.response.headers['Content-Type'])
运行结果(前六条请求):
4.拦截器
可以在某些请求发出前,修改请求的参数或直接阻止请求
import json from seleniumwire import webdriver # 设置拦截器 def interceptor(request): # 拦截.png,.jpg,.gif结尾的请求 if request.path.endswith(('.png', '.jpg', '.gif')): request.abort() driver = webdriver.Chrome() driver.request_interceptor = interceptor driver.get('https://www.baidu.com') # 通过requests属性访问请求 for request in driver.requests: if request.response: print("Url:", request.url) print("Code:", request.response.status_code) print("Content-Type:", request.response.headers['Content-Type'])
运行结果(前六条请求):
5.添加和修改请求参数
# 设置拦截器 def interceptor(request): # 添加请求参数 params = request.params params['foo'] = 'bar' request.params = params # 修改POST请求正文中的JSON if request.method == 'POST' and request.headers['Content-Type'] == 'application/json': # 获取原请求内容 body = request.body.decode('utf-8') data = json.loads(body) # 修改要改变的参数 data['foo'] = 'bar' # 将修改好的参数设置回请求 request.body = json.dumps(data).encode('utf-8') # 更新内容长度 del request.headers['Content-Length'] request.headers['Content-Length'] = str(len(request.body))