Scrapy爬虫遇到 ‘Forbidden by robots.txt’的问题

本文转载自查看原文 2018-11-25 18:16 565 错误集锦/ 错误集/ Python

今天在爬知乎精华时，出现了‘Forbidden by robots.txt’的问题

了解到到scrapy在爬取设定的url之前，它会先向服务器根目录请求一个txt文件，这个文件规定了爬取范围

scrapy会遵守这个范围协议，查看自己是否符合权限，出错说明不符合，所以我们只要不遵守这个协议就Ok了

在settings.py中找到 ROBOTSSTXT_OBEY 改

ROBOTSTXT_OBEY=False

问题就解决了。

本站转载的文章为个人学习借鉴使用，本站对版权不负任何法律责任。如果侵犯了您的隐私权益，请联系本站邮箱yoyou2525@163.com删除。

猜您在找 爬虫之robots.txt scrapy下载图片报[scrapy.downloadermiddlewares.robotstxt] DEBUG: Forbidden by robots.txt:错误 Robots.txt - 禁止爬虫（转）互联网爬虫Robots.txt文件全解 IIS设置文件 Robots.txt 禁止爬虫如何设置网站的robots.txt 网站的robots.txt文件 WP博客wordpress,robots.txt写法禁止所有搜索爬虫访问网站指定目录robots.txt nginx下禁止访问robots.txt的设置方法