網站禁止網絡搜索引擎的抓取三種方法

本文轉載自查看原文 2018-02-05 11:18 2828 linux

一般情況下，網站建立並運營之后總是希望被搜索引擎收錄的數量越多越好。但這只是通常情況下，大部分人所希望的。有些時候，我們還是會希望搜索引擎蜘蛛不要訪問網站的某些文件夾，當然也有不希望搜索引擎收錄的頁面。
比如說，網站剛剛建立並沒有真正投入運營，還沒有實質性的內容時；還有過多的收錄頁面導致網站權重的分散，而恰恰你想要聚攏權重到某些個最重要的頁面時；再比如建立一個鏡像網站，並主要通過其他的推廣手段（這里指除了SEO以外的推廣方法）對網站進行運營時……
而搜索引擎收錄網站頁面是需要通過蜘蛛訪問網站，並對頁面內容進行抓取。所以通常情況下，想要阻止搜索引擎的收錄就需要限制、屏蔽蜘蛛的訪問與抓取。下面筆者介紹幾種常用的屏蔽蜘蛛抓取的方法。

1.robots.txt規則文件。(簡單概括: 創建文件robots.txt 放到你項目的跟目錄下（也就是你網站的根目錄， 80端口訪問的html頁面目錄） , 然后你的訪問你的域名 + robots.txt 能訪問到就可以了)

大家都知道robots.txt是指引搜索引擎蜘蛛對該網站訪問與否的規則，平時運用的也比較多。一般的建議是不論網站是否有需要屏蔽收錄的內容，都要在根目錄下建立robots.txt文件。
robots.txt文件規則的寫法很簡單，比如需要屏蔽某一個搜索引擎的蜘蛛訪問所有目錄，就這樣寫：

User-agent:Googlebot
Disallow:/
再比如禁止所有蜘蛛訪問、抓取某一個目錄則：
User-agent:*
Disallow:/admin/

生成robots.tst文件工具 http://tool.chinaz.com/robots/

2.robots Meta標簽。

如果說robots.txt是一個放在網站中的規則文件，那robots Meta就是放在某個網頁中的標簽。兩者的實際功能是大致相同的，但robots.txt是大部分搜索引擎都支持的方式，而后者卻是大部分搜索引擎都不支持的。另外相比較下，robots Meta用來對某幾個頁面單獨設置時使用。
robots Meta標簽必須存放在“<head>…</head>”代碼之內：

<head>
…
<meta name=”robots” content=”index,follow” />
</head>

其中“index”指的是索引，“follow”指的是跟蹤鏈接並傳遞相應的權重。當然相應的還有“noindex”和“nofollow”，功能則正好相反。

3.服務器配置文件。

這種方法是最不常見的屏蔽蜘蛛的方法，主要用於屏蔽那些“不恪守”robots.txt規則的蜘蛛。
方法就是一段時間的分析網站日志，發現需要屏蔽的蜘蛛以及它的ip。然后通過服務器的配置文件將其屏蔽，從而實現屏蔽某一個蜘蛛抓取網站。當然這種方法運用起來並不靈活，比如不能屏蔽蜘蛛單獨對某一個文件夾（或網頁）的抓取。
因服務器及其系統的不同，具體還請參見相關設置方法。

除以上提到的三種屏蔽蜘蛛抓取的方法以外，應該是有其他的方法可以達到屏蔽蜘蛛抓取的目的，歡迎各位高手在閑暇之時予以補充。
但就以上三種方法而言，第一種robots.txt規則文件的運用更為廣泛。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 google、baidu、yahoo、bing這些搜索引擎網站的圖片抓取方法匯總搜索引擎—網絡爬蟲抓取策略 robot禁止搜索引擎收錄的方法過濾搜索引擎的抓取數據如何使用robots禁止各大搜索引擎爬蟲爬取網站如何使用robots禁止各大搜索引擎爬蟲爬取網站搜索引擎-網絡爬蟲搜索引擎如何抓取網頁和如何索引網頁？搜索引擎搜索技巧—搜索某個網站中的內容設置robots.txt不讓搜索引擎抓取