如何使用robots禁止各大搜索引擎爬蟲爬取網站

本文轉載自查看原文 2018-09-27 10:23 4204 爬蟲/ 0_計算機基礎

如何使用robots禁止各大搜索引擎爬蟲爬取網站

一、總結

一句話總結：假如此網站禁止爬蟲抓取,那么,只要在網站的根目錄下,創建一個robots.txt文件

User-agent: *
Disallow: /
就可以了..

1、搜索引擎在爬取網站前會做什么？

一般來說搜索引擎爬取網站時都會，先讀取下robots.txt文件，並依照里面所設定的規則去爬取網站（當然是指沒用登錄限制的頁面）

2、robots.txt文件的內容和結構是怎樣的？

　　　　1）.robots.txt文件必須是放在文件根目錄上：
　　　　　　例如：

　　　　　　　　├─admin

　　　　　　　　│ └─templates

　　　　　　　　│ header.tpl.php

　　　　　　　　│ task_add.tpl.php

　　　　　　　　│ └─robots.txt

　　　　 2 ) .首先常用的命令為

　　　　　　　　User-agent : 可以具體制定User-agent適用，即搜索引擎的名字，如果為 * 的話則為通配

　　　　　　　　Disallow : 可以設定檔案或文件夾，不允許被爬蟲爬取，且為 / 時禁止爬取整站，也可以指定文件路徑，不可爬取

　　　　　　　　Crawl-delay: 延時爬取，防止爬蟲短時間內爬取網站過快導致網站崩潰，則可以設置該延時

　　　　　　　　Allow : 允許爬取指定頁面，為 / 時爬取整站

　　　　3）搜索引擎別稱

　　　　　　　　Googlebot 谷歌

　　　　　　　　Baiduspider 百度

　　　　　　　　等等

3、搜索引擎的好處和壞處是什么？

不好的地方會增加網站的訪問負荷;有時,還會涉及到用戶的隱私；

好的地方也是增加了訪問流量;

4、一般徹底防止爬蟲用什么方法？

如果需要防止的話，就需要監測網站，把一些不良網絡爬蟲的給堵止掉，一般是封IP。

robots.txt只能防止有品的爬蟲來爬

二、如何使用robots禁止各大搜索引擎爬蟲爬取網站

ps：由於公司網站配置的測試環境被百度爬蟲抓取，干擾了線上正常環境的使用，剛好看到每次搜索淘寶時，都會有一句由於robots.txt文件存在限制指令無法提供內容描述，於是便去學習了一波

　　　1.原來一般來說搜索引擎爬取網站時都會，先讀取下robots.txt文件，並依照里面所設定的規則去爬取網站（當然是指沒用登錄限制的頁面）

　　　 2.下面我們就來說一說如何設置robots.txt文件

　　　　1）.robots.txt文件必須是放在文件根目錄上：
　　　　　　例如：

　　　　　　　　├─admin

　　　　　　　　│ └─templates

　　　　　　　　│ header.tpl.php

　　　　　　　　│ task_add.tpl.php

　　　　　　　　│ └─robots.txt

　　　　 2 ) .首先常用的命令為

　　　　　　　　User-agent : 可以具體制定User-agent適用，即搜索引擎的名字，如果為 * 的話則為通配

　　　　　　　　Disallow : 可以設定檔案或文件夾，不允許被爬蟲爬取，且為 / 時禁止爬取整站，也可以指定文件路徑，不可爬取

　　　　　　　　Crawl-delay: 延時爬取，防止爬蟲短時間內爬取網站過快導致網站崩潰，則可以設置該延時

　　　　　　　　Allow : 允許爬取指定頁面，為 / 時爬取整站

　　　　3）搜索引擎別稱

　　　　　　　　Googlebot 谷歌

　　　　　　　　Baiduspider 百度

　　　　　　　　等等

　　類似我們測試環境就設置了

　　　　User-agent : / 所有搜索引擎

　　　　Disallow : / 禁止整站

參考：如何使用robots禁止各大搜索引擎爬蟲爬取網站 - link_xjxj - 博客園
https://www.cnblogs.com/jjq-exchange/p/9549989.html

三、網站肉容如何避免被百度google爬蟲抓取

什么是網絡爬蟲?
網絡爬蟲是一個自動提取網頁的程序，它為搜索引擎從萬維網上下載網頁，是搜索引擎的重要組成。傳統爬蟲從一個或若干初始網頁的URL開始，獲得初始網頁上的URL，在抓取網頁的過程中，不斷從當前頁面上抽取新的URL放入隊列，直到滿足系統的一定停止條件。

爬蟲有好處也有壞處：

威脅主要是流量方面，包括爬蟲的訪問以及搜索引擎被使用帶來的實際用戶訪問。

對網站有好有壞，

不好的地方會增加網站的訪問負荷;有時,還會涉及到用戶的隱私；

好的地方也是增加了訪問流量;

如果搜索引擎收錄了你的網站，你的網站的流量會增加，也就是有更多的用戶訪問量。

你想讓更多用戶知道的話，就允許網絡爬蟲，如果需要防止的話，就需要監測網站，把一些不良網絡爬蟲的給堵止掉，一般是封IP。正常情況下，在網站的目錄下放一個robots.txt的文件，里面可以聲明禁止爬蟲來爬，做為一個有品的爬蟲程序，就不去爬了，當然沒品的不在此列。
如何來配置一個robots.txt文件?

其實是比較簡單的,
User-agent: * 表示所有的爬蟲,即對所有的爬蟲都有作用;
Allow: 表示允許爬蟲訪問,抓取的內容
Disallow: 禁止爬蟲抓取的內容

假如此網站禁止爬蟲抓取,那么,只要在網站的根目錄下,創建一個robots.txt文件
User-agent: *
Disallow: /
就可以了..

關於爬蟲的文章:
http://www.javaeye.com/topic/718874
http://robbin.javaeye.com/blog/451014

參考：網站肉容如何避免被百度google爬蟲抓取 - CSDN博客
https://blog.csdn.net/wqdwin/article/details/47164889

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 google搜索引擎爬蟲爬網站原理 Spider -- 各大搜索引擎爬蟲：User-Agent Scrapy分布式爬蟲打造搜索引擎- (二)伯樂在線爬取所有文章設置robots.txt不讓搜索引擎抓取各大搜索引擎Ping服務 php實現方法搜索引擎搜索技巧—搜索某個網站中的內容搜索引擎1 搜索引擎3 robot禁止搜索引擎收錄的方法搜索引擎優化-讓你的網站更容易被搜索到