scrapy抓取豆瓣網信息時報錯提醒403[scrapy.spidermiddlewares.httperror] INFO


自學python的爬蟲scrapy,可能會遇到如下問題:

通過上文解釋對豆瓣網進行抓取過程中出現報錯如下:

2020-08-20 14:27:46 [scrapy.extensions.telnet] INFO: Telnet console listening on 127.0.0.1:6023
2020-08-20 14:27:47 [scrapy.core.engine] DEBUG: Crawled (403) <GET https://movie.douban.com/top250> (referer: None)
2020-08-20 14:27:47 [scrapy.spidermiddlewares.httperror] INFO: Ignoring response <403 https://movie.douban.com/top250>: HTTP status code is not handled or not allowed
2020-08-20 14:27:47 [scrapy.core.engine] INFO: Closing spider (finished)

這是因為豆瓣服務器自帶偽裝防爬蟲,解決辦法如下:

1.打開pycharm,找到douban-->spiders-->setting.py-->USER_AGENT

 

 

 2.這並不是一個標准的USER_AGENT,把里面內容刪除,需要修改為豆瓣網的USER_AGENT

3.打開豆瓣網https://movie.douban.com/top250,按下F12查看網頁代碼

4.按下F5進行刷新,找到network-->top250(左鍵單擊)-->User_Agent(在底部)復制后面長串

5.粘貼到剛才的setting.py-->USER_AGENT的引號里面,保存

 

6.最關鍵的一步,#USER_AGENT前面有一個#,表示注釋,此時我們需要運行它,所以將#刪去(字體變亮),保存

 

 

 

7.在cmd執行程序下cd douban 然后scrapy crawl douban_spider回車,出現下面界面即為成功

 

 希望能幫到大家,問你們要一個贊,你們會給嗎,謝謝大家

版權聲明:本文版權歸作者(@攻城獅小關)和博客園共有,歡迎轉載,但未經作者同意必須保留此段聲明,且在文章頁面明顯位置給出原文連接,否則保留追究法律責任的權利。
大家寫文都不容易,請尊重勞動成果~

 交流加Q:1909561302

CSDN地址https://blog.csdn.net/Mumaren6/


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM