scrapy中ROBOTSTXT_OBEY = True的相關說明


  在scrapy中創建項目以后,在settings文件中有這樣的一條默認開啟的語句:

  

# Obey robots.txt rules
ROBOTSTXT_OBEY = True

 

  觀察代碼可以發現,默認為True,就是要遵守robots.txt 的規則,那么 robots.txt 是個什么東西呢?

通俗來說, robots.txt 是遵循 Robot協議 的一個文件,它保存在網站的服務器中,它的作用是,告訴搜索引擎爬蟲,本網站哪些目錄下的網頁 不希望 你進行爬取收錄。在Scrapy啟動后,會在第一時間訪問網站的 robots.txt 文件,然后決定該網站的爬取范圍。

當然,我們並不是在做搜索引擎,而且在某些情況下我們想要獲取的內容恰恰是被 robots.txt 所禁止訪問的。所以,某些時候,我們就要將此配置項設置為 False ,拒絕遵守 Robot協議 !


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM