python3 爬蟲5--分析Robots協議


1Robots協議

Robots協議告訴了搜索引擎和爬蟲那些頁面可以抓取,那些不可以,通常是存放在robots.txt文件里面,位於網站的根目錄下

robots.txt中內容的示范:

User-agent:* //表示了搜索爬蟲的名稱,*表示對任何爬蟲都有效

Disallow:/ //表示了不允許抓取的目錄,/表示不允許抓取所有目錄,沒有寫就代表允許抓取所有的目錄

Allow:/public/ //表示在排除Disallow中,可以抓取的目錄

2robotparse

robotparse就是用來專門解析robots.txt文件的

from urllib.robotparser import RobotFileParser

下面是RobotFileParse()的使用方法

set_url(),用來設置 robots.txt 文件的鏈接。如果已經在創建 RobotFileParser 對象時傳入了鏈接,那就不需要再使用這個方法設置了。

read(),讀取 robots.txt 文件並進行分析,注意這個函數是執行一個讀取和分析操作,如果不調用這個方法,接下來的判斷都會為 False,所以一定記得調用這個方法,這個方法不會返回任何內容,但是執行了讀取操作。

parse(),用來解析 robots.txt 文件,傳入的參數是 robots.txt 某些行的內容,它會按照 robots.txt 的語法規則來分析這些內容。

can_fetch(),方法傳入兩個參數,第一個是 User-agent,第二個是要抓取的 URL,返回的內容是該搜索引擎是否可以抓取這個 URL,返回結果是 True 或 False。

mtime(),返回的是上次抓取和分析 robots.txt 的時間,這個對於長時間分析和抓取的搜索爬蟲是很有必要的,你可能需要定期檢查來抓取最新的 robots.txt。

modified(),同樣的對於長時間分析和抓取的搜索爬蟲很有幫助,將當前時間設置為上次抓取和分析 robots.txt 的時間。

from urllib.robotparser import RobotFileParser

rp=RobotFileParse()

rp.set_url('http://www.jianshu.com/robots.txt')

#也可以直接設置rp=RobotFileParse('http://www.jianshu.com/robots.txt')

re.read()

#也可以這么設置rp.parse(urlopen('http://www.jianshu.com/robots.txt').read().decode('utf-8').splict('\n'))

print(rp.can_fetch('*','http://www.jianshu.com/p/b67554025d7d'))

print(rp.can_fetch('*', "http://www.jianshu.com/search?q=python&page=1&type=collections"))


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM