解決在靜態頁面上使用動態參數,造成spider多次和重復抓取的問題


  我們在使用百度統計中的SEO建議檢查網站時,總是發現“靜態頁參數”一項被扣了18分,扣分原因是“在靜態頁面上使用動態參數,會造成spider多次和重復抓取”。一般來說靜態頁面上使用少量的動態參數的話並不會對spider的抓取造成什么影響,但要是一個網站靜態頁面上使用的動態參數過多,那么最后就有可能會造成spider多次和重復抓取了。

  要解決“在靜態頁面上使用動態參數,會造成spider多次和重復抓取”這一SEO問題,我們需要用到Robots.txt(機器人協議)來限制百度spider對網站頁面的抓取,robots.txt是一個協議,而不是一個命令。robots.txt是搜索引擎中訪問網站的時候要查看的第一個文件。robots.txt文件告訴蜘蛛程序在服務器上什么文件是可以被查看的。當一個搜索蜘蛛訪問一個站點時,它會首先檢查該站點根目錄下是否存在robots.txt,如果存在,搜索機器人就會按照該文件中的內容來確定訪問的范圍;如果該文件不存在,所有的搜索蜘蛛將能夠訪問網站上所有沒有被口令保護的頁面。

  詳解如何通過創建Robots.txt來解決網站被重復抓取,我們只需要設置一個語法。
      User-agent: Baiduspider(僅對百度蜘蛛有效)
  Disallow: /*?* (禁止訪問網站中所有的動態頁面)
  這樣就可以防止動態頁面被百度索引,避免出現網站被spider重復抓取了。有些人說:“我的網站是使用偽靜態頁面的,每個網址html前面都帶有?怎么辦?” 這種情況的話就使用另一個語法。
      User-agent: Baiduspider(僅對百度蜘蛛有效)
  allow: .htm$(僅允許訪問以".htm"為后綴的URL)
  這樣就可以讓百度蜘蛛只收錄你的靜態頁面,而不索引動態頁。其實網站SEO知識還有很多,都需要我們一步一步的去摸索,通過實踐去發現真理。注重用戶體驗的網站才是長久發展的基本點。

  禁止網站被搜索抓取的一些方法:

先在站點的根目錄下新建一個robots.txt文本文件。當搜索蜘蛛訪問這個站點時,它會首先檢查該站點根目錄下是否存在robots.txt,如果存在,搜索蜘蛛就會先讀取這個文件的內容:

文件寫法
User-agent: * 這里的*代表的所有的搜索引擎種類,*是一個通配符,user-agent分號后需加空格。
Disallow: / 這里定義是禁止爬尋站點所有的內容
Disallow: /admin/ 這里定義是禁止爬尋admin目錄下面的目錄
Disallow: /ABC/ 這里定義是禁止爬尋ABC目錄下面的目錄
Disallow: /cgi-bin/*.htm 禁止訪問/cgi-bin/目錄下的所有以".htm"為后綴的URL(包含子目錄)。
Disallow: /*?* 禁止訪問網站中所有包含問號 (?) 的網址
Disallow: /.jpg$ 禁止抓取網頁所有的.jpg格式的圖片
Disallow:/ab/adc.html 禁止爬取ab文件夾下面的adc.html文件。
Allow: /cgi-bin/ 這里定義是允許爬尋cgi-bin目錄下面的目錄
Allow: /tmp 這里定義是允許爬尋tmp的整個目錄
Allow: .htm$ 僅允許訪問以".htm"為后綴的URL。
Allow: .gif$ 允許抓取網頁和gif格式圖片
Sitemap: 網站地圖 告訴爬蟲這個頁面是網站地圖
 
下面列出來的是比較出名的搜索引擎蜘蛛名稱:
Google的蜘蛛: Googlebot
百度的蜘蛛:baiduspider
Yahoo的蜘蛛:Yahoo Slurp
MSN的蜘蛛:Msnbot
Altavista的蜘蛛:Scooter
Lycos的蜘蛛: Lycos_Spider_(T-Rex) 
Alltheweb的蜘蛛: FAST-WebCrawler/ 
INKTOMI的蜘蛛: Slurp
SOGOU的蜘蛛:Sogou web spider/4.0和Sogou inst spider/4.0

按照以上的說明,我們可以給大案一個示例,以Sogou的來說,禁止抓取的robots.txt代碼寫法如下:
User-agent: Sogou web spider/4.0
Disallow: /goods.php 
Disallow: /category.php

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM