如何使用robots禁止各大搜索引擎爬蟲爬取網站

本文轉載自查看原文 2018-08-28 18:10 3684 日常小記

ps：由於公司網站配置的測試環境被百度爬蟲抓取，干擾了線上正常環境的使用，剛好看到每次搜索淘寶時，都會有一句由於robots.txt文件存在限制指令無法提供內容描述，於是便去學習了一波

　　　1.原來一般來說搜索引擎爬取網站時都會，先讀取下robots.txt文件，並依照里面所設定的規則去爬取網站（當然是指沒用登錄限制的頁面）

　　　 2.下面我們就來說一說如何設置robots.txt文件

　　　　1）.robots.txt文件必須是放在文件根目錄上：
　　　　　　例如：

　　　　　　　　├─admin

　　　　　　　　│ └─templates

　　　　　　　　│ header.tpl.php

　　　　　　　　│ task_add.tpl.php

　　　　　　　　│ └─robots.txt

　　　　 2 ) .首先常用的命令為

　　　　　　　　User-agent : 可以具體制定User-agent適用，即搜索引擎的名字，如果為 * 的話則為通配

　　　　　　　　Disallow : 可以設定檔案或文件夾，不允許被爬蟲爬取，且為 / 時禁止爬取整站，也可以指定文件路徑，不可爬取

　　　　　　　　Crawl-delay: 延時爬取，防止爬蟲短時間內爬取網站過快導致網站崩潰，則可以設置該延時

　　　　　　　　Allow : 允許爬取指定頁面，為 / 時爬取整站

　　　　3）搜索引擎別稱

　　　　　　　　Googlebot 谷歌

　　　　　　　　Baiduspider 百度

　　　　　　　　等等

　　類似我們測試環境就設置了

　　　　User-agent : / 所有搜索引擎

　　　　Disallow : / 禁止整站

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 如何使用robots禁止各大搜索引擎爬蟲爬取網站 google搜索引擎爬蟲爬網站原理 Spider -- 各大搜索引擎爬蟲：User-Agent nginx通過robots.txt禁止所有蜘蛛訪問（禁止搜索引擎收錄） python爬蟲調用搜索引擎及圖片爬取實戰爬蟲日記之關鍵字搜索引擎爬取 [python爬蟲] Selenium定向爬取海量精美圖片及搜索引擎雜談 Scrapy分布式爬蟲打造搜索引擎- (二)伯樂在線爬取所有文章 Robots.txt 不讓搜索引擎收錄網站的方法信息檢索 - SDU新聞網站Python全站爬取+索引構建+搜索引擎