假定一個場景:某個網站它可能不希望被網絡爬蟲抓取,例如測試環境不希望被抓取,以免對用戶造成誤導,那么需要在該網站中申明,本站不希望被抓取。有如下方法:
方法一:修改nginx.conf,禁止網絡爬蟲的ua,返回403。
server {
listen 80;
server_name 127.0.0.1;
#添加如下內容即可防止爬蟲
if ($http_user_agent ~* "qihoobot|Baiduspider|Googlebot|Googlebot-Mobile|Googlebot-Image|Mediapartners-Google|Adsbot-Google|Feedfetcher-Google|Yahoo! Slurp|Yahoo! Slurp China|YoudaoBot|Sosospider|Sogou spider|Sogou web spider|MSNBot|ia_archiver|Tomato Bot")
{
return 403;
}
方法2:網站更目錄下增加Robots.txt,放在站點根目錄下。
在http://tool.chinaz.com/robots/站點可以針對現在的搜索引擎按照想要的規則生成robots.txt文件。
知識擴展:
robots.txt是搜索引擎中訪問網站的時候要查看的第一個文件。robots.txt文件告訴蜘蛛程序在服務器上什么文件是可以被查看的。