今天查看服務器日志發現一些垃圾蜘蛛頻繁抓緊網站頁面,白白浪費服務器資源,屏蔽之!
垃圾蜘蛛定義
垃圾蜘蛛定義為對網站的品牌和流量沒有任何實質性的幫助,並且給網站資源帶來一定損耗的蜘蛛。這種蜘蛛會頻繁抓取網站內容,並且利用內容做一些數據分析來達到他們的商業目的。
垃圾蜘蛛列表
- SemrushBot,這是semrush下面的一個蜘蛛,是一家做搜索引擎優化的公司,因此它抓取網頁的目的就很明顯了。這種蜘蛛對網站沒有任何用處,好在它還遵循robots協議,因此可以直接在robots屏蔽。
- DotBot, 這是moz旗下的,作用是提供seo服務的蜘蛛,但是對我們並沒有什么用處。好在遵循robots協議,可以使用robots屏蔽
- AhrefsBot, 這是ahrefs旗下的蜘蛛,作用是提供seo服務,對我們沒有任何用處,遵循robots協議。
- MJ12bot,這是英國的一個搜索引擎蜘蛛,但是對中文站站點就沒有用處了,遵循robots協議。
- MauiBot,這個不太清楚是什么,但是有時候很瘋狂,好在遵循robots協議。
- MegaIndex.ru,這是一個提供反向鏈接查詢的網站的蜘蛛,因此它爬網站主要是分析鏈接,並沒有什么作用。遵循robots協議。
- BLEXBot, 這個是webmeup下面的蜘蛛,作用是收集網站上面的鏈接,對我們來說並沒有用處。遵循robots協議
- 等待增加
屏蔽方法
對於遵循robots協議的蜘蛛,可以直接在robots禁止。上面常見的無用蜘蛛禁止方法如下,將下面的內容加入到網站根目錄下面的robots.txt就可以了
User-agent: SemrushBot
Disallow: /
User-agent: DotBot
Disallow: /
User-agent: MegaIndex.ru
Disallow: /
User-agent: MauiBot
Disallow: /
User-agent: AhrefsBot
Disallow: /
User-agent: MJ12bot
Disallow: /
User-agent: BLEXBot
Disallow: /
對於不尊許robots規則的蜘蛛,目前能夠屏蔽的方法就是根據useragent或者ip來禁止了。