X老師上課講了Robots協議,小寧同學卻上課打了瞌睡,趕緊來教教小寧Robots協議是什么吧。
想解出這道題目首先得學習一下什么是robots協議。。。
什么是robots協議:
robots協議也叫robots.txt(統一小寫)是一種存放於網站根目錄下的ASCII編碼的文本文件,
它通常告訴網絡搜索引擎的漫游器(又稱網絡蜘蛛),
此網站中的哪些內容是不應被搜索引擎的漫游器獲取的,哪些是可以被漫游器獲取的。
因為一些系統中的URL是大小寫敏感的,所以robots.txt的文件名應統一為小寫。
robots.txt應放置於網站的根目錄下。
如果想單獨定義搜索引擎的漫游器訪問子目錄時的行為,那么可以將自定的設置合並到根目錄下的robots.txt,
或者使用robots元數據(Metadata,又稱元數據)。
robots協議也叫robots.txt(統一小寫)是一種存放於網站根目錄下的ASCII編碼的文本文件,
它通常告訴網絡搜索引擎的漫游器(又稱網絡蜘蛛),
此網站中的哪些內容是不應被搜索引擎的漫游器獲取的,哪些是可以被漫游器獲取的。
因為一些系統中的URL是大小寫敏感的,所以robots.txt的文件名應統一為小寫。
robots.txt應放置於網站的根目錄下。
如果想單獨定義搜索引擎的漫游器訪問子目錄時的行為,那么可以將自定的設置合並到根目錄下的robots.txt,
或者使用robots元數據(Metadata,又稱元數據)。
robots協議的功能:
Robots協議用來告知搜索引擎哪些頁面能被抓取,哪些頁面不能被抓取;
可以屏蔽一些網站中比較大的文件,如:圖片,音樂,視頻等,節省服務器帶寬;
可以屏蔽站點的一些死鏈接。
方便搜索引擎抓取網站內容;設置網站地圖連接,方便引導蜘蛛爬取頁面。
Robots協議用來告知搜索引擎哪些頁面能被抓取,哪些頁面不能被抓取;
可以屏蔽一些網站中比較大的文件,如:圖片,音樂,視頻等,節省服務器帶寬;
可以屏蔽站點的一些死鏈接。
方便搜索引擎抓取網站內容;設置網站地圖連接,方便引導蜘蛛爬取頁面。
robots.txt文件寫法:
User-agent: * 這里的*代表的所有的搜索引擎種類,*是一個通配符
Disallow: /admin/ 這里定義是禁止爬尋admin目錄下面的目錄
Disallow: /require/ 這里定義是禁止爬尋require目錄下面的目錄
Disallow: /ABC/ 這里定義是禁止爬尋ABC目錄下面的目錄
Disallow: /cgi-bin/.htm 禁止訪問/cgi-bin/目錄下的所有以".htm"為后綴的URL(包含子目錄)。
Disallow: /?* 禁止訪問網站中所有包含問號 (?) 的網址
Disallow: /.jpg$ 禁止抓取網頁所有的.jpg格式的圖片
Disallow:/ab/adc.html 禁止爬取ab文件夾下面的adc.html文件。
Allow: /cgi-bin/ 這里定義是允許爬尋cgi-bin目錄下面的目錄
Allow: /tmp 這里定義是允許爬尋tmp的整個目錄
Allow: .htm$ 僅允許訪問以".htm"為后綴的URL。
Allow: .gif$ 允許抓取網頁和gif格式圖片
Sitemap:網站地圖 告訴爬蟲這個頁面是網站地圖
User-agent: * 這里的*代表的所有的搜索引擎種類,*是一個通配符
Disallow: /admin/ 這里定義是禁止爬尋admin目錄下面的目錄
Disallow: /require/ 這里定義是禁止爬尋require目錄下面的目錄
Disallow: /ABC/ 這里定義是禁止爬尋ABC目錄下面的目錄
Disallow: /cgi-bin/.htm 禁止訪問/cgi-bin/目錄下的所有以".htm"為后綴的URL(包含子目錄)。
Disallow: /?* 禁止訪問網站中所有包含問號 (?) 的網址
Disallow: /.jpg$ 禁止抓取網頁所有的.jpg格式的圖片
Disallow:/ab/adc.html 禁止爬取ab文件夾下面的adc.html文件。
Allow: /cgi-bin/ 這里定義是允許爬尋cgi-bin目錄下面的目錄
Allow: /tmp 這里定義是允許爬尋tmp的整個目錄
Allow: .htm$ 僅允許訪問以".htm"為后綴的URL。
Allow: .gif$ 允許抓取網頁和gif格式圖片
Sitemap:網站地圖 告訴爬蟲這個頁面是網站地圖
解:
1.首先利用URL訪問該網頁的robots.txt文件
url/robots.txt
結果顯示為:
User-agent: *
Disallow:
Disallow: f1ag_1s_h3re.php
取得關鍵性消息,禁止網頁爬蟲爬取f1ag_1s_h3re.php文件
2.利用URL訪問該文件得出Flag
1.首先利用URL訪問該網頁的robots.txt文件
url/robots.txt
結果顯示為:
User-agent: *
Disallow:
Disallow: f1ag_1s_h3re.php
取得關鍵性消息,禁止網頁爬蟲爬取f1ag_1s_h3re.php文件
2.利用URL訪問該文件得出Flag
部分內容節選自百度百科:
https://baike.baidu.com/item/robots協議/2483797?fr=aladdin
https://baike.baidu.com/item/robots協議/2483797?fr=aladdin