解決在靜態頁面上使用動態參數，造成spider多次和重復抓取的問題

本文轉載自查看原文 2017-03-09 14:50 2033 靜態頁參數/ SEO優化

　　我們在使用百度統計中的SEO建議檢查網站時，總是發現“靜態頁參數”一項被扣了18分，扣分原因是“在靜態頁面上使用動態參數，會造成spider多次和重復抓取”。一般來說靜態頁面上使用少量的動態參數的話並不會對spider的抓取造成什么影響，但要是一個網站靜態頁面上使用的動態參數過多，那么最后就有可能會造成spider多次和重復抓取了。

　　要解決“在靜態頁面上使用動態參數，會造成spider多次和重復抓取”這一SEO問題，我們需要用到Robots.txt(機器人協議)來限制百度spider對網站頁面的抓取，robots.txt是一個協議，而不是一個命令。robots.txt是搜索引擎中訪問網站的時候要查看的第一個文件。robots.txt文件告訴蜘蛛程序在服務器上什么文件是可以被查看的。當一個搜索蜘蛛訪問一個站點時，它會首先檢查該站點根目錄下是否存在robots.txt，如果存在，搜索機器人就會按照該文件中的內容來確定訪問的范圍；如果該文件不存在，所有的搜索蜘蛛將能夠訪問網站上所有沒有被口令保護的頁面。

　　詳解如何通過創建Robots.txt來解決網站被重復抓取，我們只需要設置一個語法。
User-agent: Baiduspider（僅對百度蜘蛛有效）
　　Disallow: /*?* （禁止訪問網站中所有的動態頁面）
　　這樣就可以防止動態頁面被百度索引，避免出現網站被spider重復抓取了。有些人說：“我的網站是使用偽靜態頁面的，每個網址html前面都帶有？怎么辦？” 這種情況的話就使用另一個語法。
User-agent: Baiduspider（僅對百度蜘蛛有效）
　　allow: .htm$（僅允許訪問以".htm"為后綴的URL）
　　這樣就可以讓百度蜘蛛只收錄你的靜態頁面，而不索引動態頁。其實網站SEO知識還有很多，都需要我們一步一步的去摸索，通過實踐去發現真理。注重用戶體驗的網站才是長久發展的基本點。

　　禁止網站被搜索抓取的一些方法：

先在站點的根目錄下新建一個robots.txt文本文件。當搜索蜘蛛訪問這個站點時，它會首先檢查該站點根目錄下是否存在robots.txt，如果存在，搜索蜘蛛就會先讀取這個文件的內容:

文件寫法
User-agent: * 這里的*代表的所有的搜索引擎種類，*是一個通配符,user-agent分號后需加空格。
Disallow: / 這里定義是禁止爬尋站點所有的內容
Disallow: /admin/ 這里定義是禁止爬尋admin目錄下面的目錄
Disallow: /ABC/ 這里定義是禁止爬尋ABC目錄下面的目錄
Disallow: /cgi-bin/*.htm 禁止訪問/cgi-bin/目錄下的所有以".htm"為后綴的URL(包含子目錄)。
Disallow: /*?* 禁止訪問網站中所有包含問號 (?) 的網址
Disallow: /.jpg$ 禁止抓取網頁所有的.jpg格式的圖片
Disallow:/ab/adc.html 禁止爬取ab文件夾下面的adc.html文件。
Allow: /cgi-bin/　這里定義是允許爬尋cgi-bin目錄下面的目錄
Allow: /tmp 這里定義是允許爬尋tmp的整個目錄
Allow: .htm$ 僅允許訪問以".htm"為后綴的URL。
Allow: .gif$ 允許抓取網頁和gif格式圖片
Sitemap: 網站地圖告訴爬蟲這個頁面是網站地圖

下面列出來的是比較出名的搜索引擎蜘蛛名稱：
Google的蜘蛛： Googlebot
百度的蜘蛛：baiduspider
Yahoo的蜘蛛：Yahoo Slurp
MSN的蜘蛛：Msnbot
Altavista的蜘蛛：Scooter
Lycos的蜘蛛： Lycos_Spider_(T-Rex)
Alltheweb的蜘蛛： FAST-WebCrawler/
INKTOMI的蜘蛛： Slurp
SOGOU的蜘蛛：Sogou web spider/4.0和Sogou inst spider/4.0

按照以上的說明,我們可以給大案一個示例,以Sogou的來說,禁止抓取的robots.txt代碼寫法如下:
User-agent: Sogou web spider/4.0
Disallow: /goods.php
Disallow: /category.php

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 stylus 在靜態頁面上的使用經驗使用Selenium來抓取動態加載的頁面使用Selenium來抓取動態加載的頁面頁面上怎么使用svg 解決頁面上JS文件加載過慢問題 HttpClient抓取動態頁面 Python-爬蟲-動態渲染頁面抓取-（Selenium）的使用 python爬蟲之動態渲染頁面抓取-（Selenium）的使用網站[高並發]下使用[靜態方法]會造成頁面無法訪問 wpf 解決 WPF SelectionChanged事件向上傳遞造成重復執行不想執行的函數的問題