爬蟲遭遇521狀態碼

本文轉載自查看原文 2019-12-05 13:47 733 爬蟲

起因：工作中爬取頁面遭遇521狀態碼

scrapy中遭遇521狀態碼，會被無視，而不會被爬蟲處理。

通過F12開發者工具可知

通過在下載器中間件的查看，可以得知是可以在process_response中獲取response.text

實際上是js代碼，一段不規則加密代碼和一段可讀代碼。

通過將這段代碼中的eval替換為console.log放到html文件中

可以在控制台得到

又是一段類似的代碼，但是已經可以清晰的看到cookie相關的東西。

解決方法就是將‘document.cookie=’替換為'return '，其他的根據報錯替換

就我這一個頁面的解決方案：

將上一步js代碼替換成下圖 url為訪問界面url

即可獲得cookie

利用這一個cookie和訪問此頁面時響應頭中的set-cookie組合獲得最終cookie

headers要模仿瀏覽器中的請求頭。

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 爬蟲遇到521錯誤怎么辦 python爬蟲代碼中_獲取狀態碼爬蟲狀態碼412的解決思路爬蟲521錯誤(又是一次和可愛的前端vs的故事) HTTP狀態碼(響應碼) 常見的http狀態碼 [RESTful]HTTP狀態碼 HTTP狀態碼詳解 http之206狀態碼 HTTP狀態碼列表