常見垃圾蜘蛛及屏蔽方法


今天查看服務器日志發現一些垃圾蜘蛛頻繁抓緊網站頁面,白白浪費服務器資源,屏蔽之!

垃圾蜘蛛定義

垃圾蜘蛛定義為對網站的品牌和流量沒有任何實質性的幫助,並且給網站資源帶來一定損耗的蜘蛛。這種蜘蛛會頻繁抓取網站內容,並且利用內容做一些數據分析來達到他們的商業目的。

垃圾蜘蛛列表

  1. SemrushBot,這是semrush下面的一個蜘蛛,是一家做搜索引擎優化的公司,因此它抓取網頁的目的就很明顯了。這種蜘蛛對網站沒有任何用處,好在它還遵循robots協議,因此可以直接在robots屏蔽。
  2. DotBot, 這是moz旗下的,作用是提供seo服務的蜘蛛,但是對我們並沒有什么用處。好在遵循robots協議,可以使用robots屏蔽
  3. AhrefsBot, 這是ahrefs旗下的蜘蛛,作用是提供seo服務,對我們沒有任何用處,遵循robots協議。
  4. MJ12bot,這是英國的一個搜索引擎蜘蛛,但是對中文站站點就沒有用處了,遵循robots協議。
  5. MauiBot,這個不太清楚是什么,但是有時候很瘋狂,好在遵循robots協議。
  6. MegaIndex.ru,這是一個提供反向鏈接查詢的網站的蜘蛛,因此它爬網站主要是分析鏈接,並沒有什么作用。遵循robots協議。
  7. BLEXBot, 這個是webmeup下面的蜘蛛,作用是收集網站上面的鏈接,對我們來說並沒有用處。遵循robots協議
  8. 等待增加

屏蔽方法

對於遵循robots協議的蜘蛛,可以直接在robots禁止。上面常見的無用蜘蛛禁止方法如下,將下面的內容加入到網站根目錄下面的robots.txt就可以了

User-agent: SemrushBot
Disallow: /
User-agent: DotBot
Disallow: /
User-agent: MegaIndex.ru
Disallow: /
User-agent: MauiBot
Disallow: /
User-agent: AhrefsBot
Disallow: /
User-agent: MJ12bot
Disallow: /
User-agent: BLEXBot
Disallow: /

對於不尊許robots規則的蜘蛛,目前能夠屏蔽的方法就是根據useragent或者ip來禁止了。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM