爬虫遭遇521状态码

本文转载自查看原文 2019-12-05 13:47 733 爬虫

起因：工作中爬取页面遭遇521状态码

scrapy中遭遇521状态码，会被无视，而不会被爬虫处理。

通过F12开发者工具可知

通过在下载器中间件的查看，可以得知是可以在process_response中获取response.text

实际上是js代码，一段不规则加密代码和一段可读代码。

通过将这段代码中的eval替换为console.log放到html文件中

可以在控制台得到

又是一段类似的代码，但是已经可以清晰的看到cookie相关的东西。

解决方法就是将‘document.cookie=’替换为'return '，其他的根据报错替换

就我这一个页面的解决方案：

将上一步js代码替换成下图 url为访问界面url

即可获得cookie

利用这一个cookie和访问此页面时响应头中的set-cookie组合获得最终cookie

headers要模仿浏览器中的请求头。

本站转载的文章为个人学习借鉴使用，本站对版权不负任何法律责任。如果侵犯了您的隐私权益，请联系本站邮箱yoyou2525@163.com删除。

猜您在找 爬虫遇到521错误怎么办 python爬虫代码中_获取状态码爬虫状态码412的解决思路爬虫521错误(又是一次和可爱的前端vs的故事) python爬虫遇到状态码304,705 HTTP状态码(响应码) http状态码与业务状态码 HTTP状态码(响应码) HTTP状态码(响应码) 常见的http状态码