Scrapy爬蟲遇到 ‘Forbidden by robots.txt’的問題


今天在爬知乎精華時,出現了‘Forbidden by robots.txt’的問題

了解scrapy在爬取設定的url之前,它會先向服務器根目錄請求一個txt文件,這個文件規定了爬取范圍

scrapy會遵守這個范圍協議,查看自己是否符合權限,出錯說明不符合,所以我們只要不遵守這個協議就Ok了

在settings.py中找到 ROBOTSSTXT_OBEY

ROBOTSTXT_OBEY=False

 

問題就解決了。

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM