網站禁止網絡搜索引擎的抓取三種方法


一般情況下,網站建立並運營之后總是希望被搜索引擎收錄的數量越多越好。但這只是通常情況下,大部分人所希望的。有些時候,我們還是會希望搜索引擎蜘蛛不要訪問網站的某些文件夾,當然也有不希望搜索引擎收錄的頁面。
比如說,網站剛剛建立並沒有真正投入運營,還沒有實質性的內容時;還有過多的收錄頁面導致網站權重的分散,而恰恰你想要聚攏權重到某些個最重要的頁面時;再比如建立一個鏡像網站,並主要通過其他的推廣手段(這里指除了SEO以外的推廣方法)對網站進行運營時……
而搜索引擎收錄網站頁面是需要通過蜘蛛訪問網站,並對頁面內容進行抓取。所以通常情況下,想要阻止搜索引擎的收錄就需要限制、屏蔽蜘蛛的訪問與抓取。下面筆者介紹幾種常用的屏蔽蜘蛛抓取的方法。

1.robots.txt規則文件。(簡單概括: 創建文件robots.txt 放到你項目的跟目錄下(也就是你網站的根目錄, 80端口訪問的html頁面目錄) , 然后你的訪問 你的 域名 + robots.txt 能訪問到就可以了)

大家都知道robots.txt是指引搜索引擎蜘蛛對該網站訪問與否的規則,平時運用的也比較多。一般的建議是不論網站是否有需要屏蔽收錄的內容,都要在根目錄下建立robots.txt文件。
robots.txt文件規則的寫法很簡單,比如需要屏蔽某一個搜索引擎的蜘蛛訪問所有目錄,就這樣寫:  

User-agent:Googlebot
Disallow:/
再比如禁止所有蜘蛛訪問、抓取某一個目錄則:
User-agent:*
Disallow:/admin/

生成robots.tst文件工具 http://tool.chinaz.com/robots/

2.robots Meta標簽。

如果說robots.txt是一個放在網站中的規則文件,那robots Meta就是放在某個網頁中的標簽。兩者的實際功能是大致相同的,但robots.txt是大部分搜索引擎都支持的方式,而后者卻是大部分搜索引擎都不支持的。另外相比較下,robots Meta用來對某幾個頁面單獨設置時使用。
robots Meta標簽必須存放在“<head>…</head>”代碼之內:

<head><meta name=”robots” content=”index,follow” />
</head>

其中“index”指的是索引,“follow”指的是跟蹤鏈接並傳遞相應的權重。當然相應的還有“noindex”和“nofollow”,功能則正好相反。

3.服務器配置文件。

這種方法是最不常見的屏蔽蜘蛛的方法,主要用於屏蔽那些“不恪守”robots.txt規則的蜘蛛。
方法就是一段時間的分析網站日志,發現需要屏蔽的蜘蛛以及它的ip。然后通過服務器的配置文件將其屏蔽,從而實現屏蔽某一個蜘蛛抓取網站。當然這種方法運用起來並不靈活,比如不能屏蔽蜘蛛單獨對某一個文件夾(或網頁)的抓取。
因服務器及其系統的不同,具體還請參見相關設置方法。

除以上提到的三種屏蔽蜘蛛抓取的方法以外,應該是有其他的方法可以達到屏蔽蜘蛛抓取的目的,歡迎各位高手在閑暇之時予以補充。
但就以上三種方法而言,第一種robots.txt規則文件的運用更為廣泛。

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM