1Robots協議
Robots協議告訴了搜索引擎和爬蟲那些頁面可以抓取,那些不可以,通常是存放在robots.txt文件里面,位於網站的根目錄下
robots.txt中內容的示范:
User-agent:* //表示了搜索爬蟲的名稱,*表示對任何爬蟲都有效
Disallow:/ //表示了不允許抓取的目錄,/表示不允許抓取所有目錄,沒有寫就代表允許抓取所有的目錄
Allow:/public/ //表示在排除Disallow中,可以抓取的目錄
2robotparse
robotparse就是用來專門解析robots.txt文件的
from urllib.robotparser import RobotFileParser
下面是RobotFileParse()的使用方法
set_url(),用來設置 robots.txt 文件的鏈接。如果已經在創建 RobotFileParser 對象時傳入了鏈接,那就不需要再使用這個方法設置了。
read(),讀取 robots.txt 文件並進行分析,注意這個函數是執行一個讀取和分析操作,如果不調用這個方法,接下來的判斷都會為 False,所以一定記得調用這個方法,這個方法不會返回任何內容,但是執行了讀取操作。
parse(),用來解析 robots.txt 文件,傳入的參數是 robots.txt 某些行的內容,它會按照 robots.txt 的語法規則來分析這些內容。
can_fetch(),方法傳入兩個參數,第一個是 User-agent,第二個是要抓取的 URL,返回的內容是該搜索引擎是否可以抓取這個 URL,返回結果是 True 或 False。
mtime(),返回的是上次抓取和分析 robots.txt 的時間,這個對於長時間分析和抓取的搜索爬蟲是很有必要的,你可能需要定期檢查來抓取最新的 robots.txt。
modified(),同樣的對於長時間分析和抓取的搜索爬蟲很有幫助,將當前時間設置為上次抓取和分析 robots.txt 的時間。
from urllib.robotparser import RobotFileParser
rp=RobotFileParse()
rp.set_url('http://www.jianshu.com/robots.txt'
)
#也可以直接設置rp=RobotFileParse('http://www.jianshu.com/robots.txt'
)
re.read()
#也可以這么設置rp.parse(urlopen('http://www.jianshu.com/robots.txt'
).read().decode('utf-8').splict('\n'))
print(rp.can_fetch('*','http://www.jianshu.com/p/b67554025d7d'
))
print(rp.can_fetch('*', "http://www.jianshu.com/search?q=python&page=1&type=collections"))