常見垃圾蜘蛛及屏蔽方法

本文轉載自查看原文 2020-05-29 15:24 1743 cms

今天查看服務器日志發現一些垃圾蜘蛛頻繁抓緊網站頁面，白白浪費服務器資源，屏蔽之！

垃圾蜘蛛定義

垃圾蜘蛛定義為對網站的品牌和流量沒有任何實質性的幫助，並且給網站資源帶來一定損耗的蜘蛛。這種蜘蛛會頻繁抓取網站內容，並且利用內容做一些數據分析來達到他們的商業目的。

垃圾蜘蛛列表

SemrushBot，這是semrush下面的一個蜘蛛，是一家做搜索引擎優化的公司，因此它抓取網頁的目的就很明顯了。這種蜘蛛對網站沒有任何用處，好在它還遵循robots協議，因此可以直接在robots屏蔽。
DotBot, 這是moz旗下的，作用是提供seo服務的蜘蛛，但是對我們並沒有什么用處。好在遵循robots協議，可以使用robots屏蔽
AhrefsBot，這是ahrefs旗下的蜘蛛，作用是提供seo服務，對我們沒有任何用處，遵循robots協議。
MJ12bot，這是英國的一個搜索引擎蜘蛛，但是對中文站站點就沒有用處了，遵循robots協議。
MauiBot，這個不太清楚是什么，但是有時候很瘋狂，好在遵循robots協議。
MegaIndex.ru，這是一個提供反向鏈接查詢的網站的蜘蛛，因此它爬網站主要是分析鏈接，並沒有什么作用。遵循robots協議。
BLEXBot, 這個是webmeup下面的蜘蛛，作用是收集網站上面的鏈接，對我們來說並沒有用處。遵循robots協議
等待增加

屏蔽方法

對於遵循robots協議的蜘蛛，可以直接在robots禁止。上面常見的無用蜘蛛禁止方法如下，將下面的內容加入到網站根目錄下面的robots.txt就可以了

User-agent: SemrushBot
Disallow: /
User-agent: DotBot
Disallow: /
User-agent: MegaIndex.ru
Disallow: /
User-agent: MauiBot
Disallow: /
User-agent: AhrefsBot
Disallow: /
User-agent: MJ12bot
Disallow: /
User-agent: BLEXBot
Disallow: /

對於不尊許robots規則的蜘蛛，目前能夠屏蔽的方法就是根據useragent或者ip來禁止了。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 html Meta 標簽屏蔽蜘蛛抓取的方法教程屏蔽百度蜘蛛或某一爬蟲的四種方法常見垃圾回收方法 nginx配置文件應對網站攻擊采集垃圾蜘蛛的方法總結 NGINX屏蔽垃圾爬蟲常見的垃圾回收器常見的垃圾回收器垃圾回收的常見算法 Apache服務器的htaccess文件配置 rewrite/防盜鏈/屏蔽爬蟲蜘蛛 IAR屏蔽警告的方法