Scrapy爬蟲遇到 ‘Forbidden by robots.txt’的問題 - 碼上歡樂

相關內容簡體繁體

Scrapy爬蟲遇到 ‘Forbidden by robots.txt’的問題

本文轉載自查看原文 2018-11-25 18:16 565 錯誤集錦/ 錯誤集/ Python

今天在爬知乎精華時，出現了‘Forbidden by robots.txt’的問題

了解到到scrapy在爬取設定的url之前，它會先向服務器根目錄請求一個txt文件，這個文件規定了爬取范圍

scrapy會遵守這個范圍協議，查看自己是否符合權限，出錯說明不符合，所以我們只要不遵守這個協議就Ok了

在settings.py中找到 ROBOTSSTXT_OBEY 改

ROBOTSTXT_OBEY=False

問題就解決了。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 爬蟲之robots.txt scrapy下載圖片報[scrapy.downloadermiddlewares.robotstxt] DEBUG: Forbidden by robots.txt:錯誤 Robots.txt - 禁止爬蟲（轉）互聯網爬蟲Robots.txt文件全解 IIS設置文件 Robots.txt 禁止爬蟲如何設置網站的robots.txt 網站的robots.txt文件 WP博客wordpress,robots.txt寫法禁止所有搜索爬蟲訪問網站指定目錄robots.txt nginx下禁止訪問robots.txt的設置方法

粵ICP備18138465號 © 2018-2026 CODEPRJ.COM