今天在爬知乎精華時,出現了‘Forbidden by robots.txt’的問題
了解到到scrapy在爬取設定的url之前,它會先向服務器根目錄請求一個txt文件,這個文件規定了爬取范圍
scrapy會遵守這個范圍協議,查看自己是否符合權限,出錯說明不符合,所以我們只要不遵守這個協議就Ok了
在settings.py中找到 ROBOTSSTXT_OBEY 改
ROBOTSTXT_OBEY=False
問題就解決了。
今天在爬知乎精華時,出現了‘Forbidden by robots.txt’的問題
了解到到scrapy在爬取設定的url之前,它會先向服務器根目錄請求一個txt文件,這個文件規定了爬取范圍
scrapy會遵守這個范圍協議,查看自己是否符合權限,出錯說明不符合,所以我們只要不遵守這個協議就Ok了
在settings.py中找到 ROBOTSSTXT_OBEY 改
ROBOTSTXT_OBEY=False
問題就解決了。
本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。