為了不讓搜索引擎索引網站的后台頁面或其它隱私頁面,我們將這些路徑在robots.txt文件中禁用了。但矛盾的是,robots.txt文件任何人都可以訪問,包括黑客。為了禁止搜索引擎,我們把隱私泄露給了黑客。
robots.txt干什么的?
robots.txt基本上每個網站都用,而且放到了網站的根目錄下,任何人都可以直接輸入路徑打開並查看里面的內容,如http://www.cnblogs.com/robots.txt。該文件用於告訴搜索引擎,哪些頁面可以去抓取,哪些頁面不要抓取。
robots.txt如何使用
在網站根目錄下創建一個文件,取名robots.txt,文件名必須是這個!然后設置里面的規則。
比如我有一個博客,我要設置不允許任何搜索引擎收錄本站,robots.txt中就設置如下兩行即可。
User-agent: *
Disallow: /
如果要限制不讓搜索引擎訪問我們網站后台admin目錄,則規則改為:
User-agent: *
Disallow: /admin/
robots.txt更多的使用規則,不在本文的討論范圍之內。
robots.txt防黑客
像上面的例子中,我們為了讓搜索引擎不要收錄admin頁面而在robots.txt里面做了限制規則。但是這個robots.txt頁面,誰都可以看,於是黑客就可以比較清楚的了解網站的結構,比如admin目錄、include目錄等等。
有沒有辦法既可以使用robots.txt的屏蔽搜索引擎訪問的功能,又不泄露后台地址和隱私目錄的辦法呢?
有,那就是使用星號(*)作為通配符。舉例如下:
User-agent:*
Disallow: /a*/
這個設置,禁止所有的搜索引擎索引根目錄下a開頭的目錄。當然如果你后台的目錄是admin,還是有可以被人猜到,但如果你再把admin改為adoit呢?還有會誰能知道?
總結下,為了不讓搜索引擎索引網站的后台目錄或其它隱私目錄,我們將這些路徑在robots.txt文件中禁用了。又為了讓robots.txt中的內容不泄露網站的后台和隱私,我們使用星號(*)來修改設置項。最后為了不讓黑客猜到真實的路徑,我們可以把這些敏感的目錄進行非常規的重命名。
好了,關於robots.txt與網站隱私,就介紹這么多,希望對大家有幫助,謝謝!
