Robots.txt是放在博客根目錄給搜索引擎看的一個文件,告訴搜索引擎什么鏈接能收錄什么鏈接不能收錄以及什么搜索引擎能夠收錄,在SEO中有着舉足輕重的作用。
WordPress本身就有很多地方是非添加robots.txt不可的,比如:
用了偽靜態鏈接之后動態鏈接依然能訪問博客。
用Wordpress架設的博客有很多不同鏈接但相同內容的頁面。
Robots.txt的誤區
不添加Robots.txt
Robots.txt作為搜索引擎機器人來到網站查看的第一個文件是很有必要精心設置的,搜索引擎機器人訪問網站時,首先會查看站點根目錄有沒有Robots.txt文件,如果有這個文件就根據文件的內容確定收錄范圍,如果沒有就默認訪問以及收錄所有頁面。這是不是意味着,要想讓搜索引擎收錄全部鏈接就可以不設置這個文件了?其實不是的,搜索引擎機器人查看沒有Robots.txt文件的時候就產生一個404錯誤日志在服務器上,增加服務器的負擔。
Robots.txt文件Allow所有頁面
這是平時比較容易犯到的錯誤,以為要讓搜索引擎更多地收錄網站就設置Robots.txt為:
User-agent: *
Disallow:
或者:
User-agent: *
Allow: /
這樣搜索引擎不單單收錄了你文章頁面,還收錄了管理界面,模板鏈接,CSS、JS鏈接,雖然說WordPress的管理界面誰都可以猜得到,不怕泄漏出去,但是這樣一來就浪費服務器的資源,而且搜索引擎收錄了這些鏈接是不會增加網站收錄數的。
Robots.txt的寫法
Robots.txt 文檔以 User-agent: 開頭,標識語句對應的搜索引擎機器人,后面跟上 Disallow: 和 Allow :表示起作用的鏈接。
User-agent: baiduspider 表示對百度機器人起作用。
User-agent: * 表示對所有搜索引擎機器人起作用。
Robots.txt文檔中至少要有一條User-agent:記錄而User-agent: * 記錄只允許有一條。
Disallow: /giisi 表示不允許搜索引擎訪問或者收錄/giisi.html、/giisi/index.html、/giisi.php等包含/giisi的鏈接,而Disallow: /giisi/則允許訪問/giisi.html、/giisi.php等,但是禁止訪問/giisi/index.html。
Disallow: / 表示禁止搜索引擎機器人訪問收錄所有頁面。訂酒店返現金
Disallow: 表示允許搜索引擎訪問收錄所有頁面。
Allow: /giisi 表示允許搜索引擎訪問或者收錄/giisi.html、/giisi/index.html、/giisi.php等包含/giisi的鏈接,而Allow:/giisi/則表示允許搜索引擎機器人訪問/giisi/index.html等鏈接,但是對/giisi.html、/giisi.php未置可否。
“*”和“$”通配符
Disallow: */comments 表示不允許訪問和收錄所有wordpress評論留言頁面。比如:http://www.giisi.com/born/tianxieyumingzhuanchushenqingbiao.html#comment-3715 是禁止收錄的。
Disallow: /category/*/page/ 表示禁止訪問和收錄分類的相關分頁。比如集思博客中網頁設計分類有很多頁面:
http://www.giisi.com/category/design/page/2
記錄中用“*”通配符表示了分類的別稱“design”。
Disallow: .jpg$ 和Disallow: .php$ 分別表示禁止訪問收錄“,jpg”和“.php”后綴的文件
集思博客的Robots.txt
User-agent: *
Disallow: /*?* (屏蔽搜索引擎機器人收錄動態網頁,因為/?q=id也是能訪問文章的哦!)
Disallow: /index.php (因為我的博客在windows主機呆過,發現www.giisi.com/index.php/postname.html也能訪問現在的日志)
Disallow: /wp-admin (屏蔽搜索引擎機器人收錄管理界面)
Disallow: /wp-content/plugins (屏蔽搜索引擎機器人收錄插件文件)
Disallow: /wp-content/themes (屏蔽搜索引擎機器人收錄模板文件)
Disallow: /wp-includes (屏蔽搜索引擎機器人收錄JS文件)
Disallow: /trackback (屏蔽搜索引擎機器人收錄trackback等垃圾信息,關閉trackback的可以忽略)
Disallow: /feed (Feed中都是與日志相同的信息當然要屏蔽)
Disallow: /comments(下面三個上面有介紹了)
Disallow: /category/*/page/
Disallow: /tag/*/page/
Sitemap: http://www.giisi.com/sitemap.xml (這個用來告訴搜索引擎sitemap的路徑,我用了兩個)
Sitemap: http://www.giisi.com/sitemap_baidu.xml
Robots.txt是放在博客根目錄給搜索引擎看的一個文件,告訴搜索引擎什么鏈接能收錄什么鏈接不能收錄以及什么搜索引擎能夠收錄,在SEO中有着舉足輕重的作用。
WordPress本身就有很多地方是非添加robots.txt不可的,比如:
用了偽靜態鏈接之后動態鏈接依然能訪問博客。
用Wordpress架設的博客有很多不同鏈接但相同內容的頁面。
Robots.txt的誤區
不添加Robots.txt
Robots.txt作為搜索引擎機器人來到網站查看的第一個文件是很有必要精心設置的,搜索引擎機器人訪問網站時,首先會查看站點根目錄有沒有Robots.txt文件,如果有這個文件就根據文件的內容確定收錄范圍,如果沒有就默認訪問以及收錄所有頁面。這是不是意味着,要想讓搜索引擎收錄全部鏈接就可以不設置這個文件了?其實不是的,搜索引擎機器人查看沒有Robots.txt文件的時候就產生一個404錯誤日志在服務器上,增加服務器的負擔。
Robots.txt文件Allow所有頁面
這是平時比較容易犯到的錯誤,以為要讓搜索引擎更多地收錄網站就設置Robots.txt為:
User-agent: *
Disallow:
或者:
User-agent: *
Allow: /
這樣搜索引擎不單單收錄了你文章頁面,還收錄了管理界面,模板鏈接,CSS、JS鏈接,雖然說WordPress的管理界面誰都可以猜得到,不怕泄漏出去,但是這樣一來就浪費服務器的資源,而且搜索引擎收錄了這些鏈接是不會增加網站收錄數的。
Robots.txt的寫法
Robots.txt 文檔以 User-agent: 開頭,標識語句對應的搜索引擎機器人,后面跟上 Disallow: 和 Allow :表示起作用的鏈接。
User-agent: baiduspider 表示對百度機器人起作用。
User-agent: * 表示對所有搜索引擎機器人起作用。
Robots.txt文檔中至少要有一條User-agent:記錄而User-agent: * 記錄只允許有一條。
Disallow: /giisi 表示不允許搜索引擎訪問或者收錄/giisi.html、/giisi/index.html、/giisi.php等包含/giisi的鏈接,而Disallow: /giisi/則允許訪問/giisi.html、/giisi.php等,但是禁止訪問/giisi/index.html。
Disallow: / 表示禁止搜索引擎機器人訪問收錄所有頁面。
Disallow: 表示允許搜索引擎訪問收錄所有頁面。
Allow: /giisi 表示允許搜索引擎訪問或者收錄/giisi.html、/giisi/index.html、/giisi.php等包含/giisi的鏈接,而Allow:/giisi/則表示允許搜索引擎機器人訪問/giisi/index.html等鏈接,但是對/giisi.html、/giisi.php未置可否。
“*”和“$”通配符
Disallow: */comments 表示不允許訪問和收錄所有wordpress評論留言頁面。比如:http://www.giisi.com/born/tianxieyumingzhuanchushenqingbiao.html#comment-3715 是禁止收錄的。
Disallow: /category/*/page/ 表示禁止訪問和收錄分類的相關分頁。比如集思博客中網頁設計分類有很多頁面:
http://www.giisi.com/category/design/page/2
記錄中用“*”通配符表示了分類的別稱“design”。
Disallow: .jpg$ 和Disallow: .php$ 分別表示禁止訪問收錄“,jpg”和“.php”后綴的文件
集思博客的Robots.txt
User-agent: *
Disallow: /*?* (屏蔽搜索引擎機器人收錄動態網頁,因為/?q=id也是能訪問文章的哦!)
Disallow: /index.php (因為我的博客在windows主機呆過,發現www.giisi.com/index.php/postname.html也能訪問現在的日志)
Disallow: /wp-admin (屏蔽搜索引擎機器人收錄管理界面)
Disallow: /wp-content/plugins (屏蔽搜索引擎機器人收錄插件文件)
Disallow: /wp-content/themes (屏蔽搜索引擎機器人收錄模板文件)
Disallow: /wp-includes (屏蔽搜索引擎機器人收錄JS文件)
Disallow: /trackback (屏蔽搜索引擎機器人收錄trackback等垃圾信息,關閉trackback的可以忽略)
Disallow: /feed (Feed中都是與日志相同的信息當然要屏蔽)
Disallow: /comments(下面三個上面有介紹了)
Disallow: /category/*/page/
Disallow: /tag/*/page/
Sitemap: http://www.giisi.com/sitemap.xml (這個用來告訴搜索引擎sitemap的路徑,我用了兩個)
Sitemap: http://www.giisi.com/sitemap_baidu.xml