scrapy抓取豆瓣網信息時報錯提醒403[scrapy.spidermiddlewares.httperror] INFO - 碼上歡樂

相關內容簡體繁體

scrapy抓取豆瓣網信息時報錯提醒403[scrapy.spidermiddlewares.httperror] INFO

本文轉載自查看原文 2020-08-21 11:41 758

自學python的爬蟲scrapy,可能會遇到如下問題：

通過上文解釋對豆瓣網進行抓取過程中出現報錯如下：

2020-08-20 14:27:46 [scrapy.extensions.telnet] INFO: Telnet console listening on 127.0.0.1:6023
2020-08-20 14:27:47 [scrapy.core.engine] DEBUG: Crawled (403) <GET https://movie.douban.com/top250> (referer: None)
2020-08-20 14:27:47 [scrapy.spidermiddlewares.httperror] INFO: Ignoring response <403 https://movie.douban.com/top250>: HTTP status code is not handled or not allowed
2020-08-20 14:27:47 [scrapy.core.engine] INFO: Closing spider (finished)

這是因為豆瓣服務器自帶偽裝防爬蟲，解決辦法如下：

1.打開pycharm,找到douban-->spiders-->setting.py-->USER_AGENT

2.這並不是一個標准的USER_AGENT，把里面內容刪除，需要修改為豆瓣網的USER_AGENT

3.打開豆瓣網https://movie.douban.com/top250，按下F12查看網頁代碼

4.按下F5進行刷新，找到network-->top250(左鍵單擊）-->User_Agent（在底部）復制后面長串

5.粘貼到剛才的setting.py-->USER_AGENT的引號里面，保存

6.最關鍵的一步，#USER_AGENT前面有一個#，表示注釋，此時我們需要運行它，所以將#刪去（字體變亮），保存

7.在cmd執行程序下cd douban 然后scrapy crawl douban_spider回車，出現下面界面即為成功

希望能幫到大家，問你們要一個贊，你們會給嗎，謝謝大家

版權聲明：本文版權歸作者（@攻城獅小關）和博客園共有，歡迎轉載，但未經作者同意必須保留此段聲明，且在文章頁面明顯位置給出原文連接，否則保留追究法律責任的權利。
大家寫文都不容易，請尊重勞動成果~

交流加Q：1909561302

CSDN地址https://blog.csdn.net/Mumaren6/

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 scrapy爬取豆瓣電影信息 python scrapy 報錯 DEBUG: Ignoring response 403 scrapy抓取中國新聞網新聞 scrapy抓取斗魚APP主播信息 Scrapy入門實例(使用Scrapy抓取豆瓣電影top250榜單） python抓取不得姐動圖（報錯 urllib.error.HTTPError: HTTP Error 403: Forbidden）通過Scrapy抓取QQ空間一個簡單的scrapy爬蟲抓取豆瓣劉亦菲的圖片地址運行scrapy demo時報錯：[twisted] CRITICAL: Unhandled error in Deferred python爬蟲實戰（四）--------豆瓣網的模擬登錄（模擬登錄和驗證碼的處理----scrapy）

粵ICP備18138465號 © 2018-2026 CODEPRJ.COM