python3 爬蟲5--分析Robots協議

本文轉載自查看原文 2017-09-15 12:39 1684 python爬蟲

1Robots協議

Robots協議告訴了搜索引擎和爬蟲那些頁面可以抓取，那些不可以，通常是存放在robots.txt文件里面，位於網站的根目錄下

robots.txt中內容的示范：

User-agent:* //表示了搜索爬蟲的名稱，*表示對任何爬蟲都有效

Disallow:/ //表示了不允許抓取的目錄，/表示不允許抓取所有目錄，沒有寫就代表允許抓取所有的目錄

Allow:/public/ //表示在排除Disallow中，可以抓取的目錄

2robotparse

robotparse就是用來專門解析robots.txt文件的

from urllib.robotparser import RobotFileParser

下面是RobotFileParse()的使用方法

set_url()，用來設置 robots.txt 文件的鏈接。如果已經在創建 RobotFileParser 對象時傳入了鏈接，那就不需要再使用這個方法設置了。

read()，讀取 robots.txt 文件並進行分析，注意這個函數是執行一個讀取和分析操作，如果不調用這個方法，接下來的判斷都會為 False，所以一定記得調用這個方法，這個方法不會返回任何內容，但是執行了讀取操作。

parse()，用來解析 robots.txt 文件，傳入的參數是 robots.txt 某些行的內容，它會按照 robots.txt 的語法規則來分析這些內容。

can_fetch()，方法傳入兩個參數，第一個是 User-agent，第二個是要抓取的 URL，返回的內容是該搜索引擎是否可以抓取這個 URL，返回結果是 True 或 False。

mtime()，返回的是上次抓取和分析 robots.txt 的時間，這個對於長時間分析和抓取的搜索爬蟲是很有必要的，你可能需要定期檢查來抓取最新的 robots.txt。

modified()，同樣的對於長時間分析和抓取的搜索爬蟲很有幫助，將當前時間設置為上次抓取和分析 robots.txt 的時間。

from urllib.robotparser import RobotFileParser

rp=RobotFileParse()

rp.set_url('http://www.jianshu.com/robots.txt')

#也可以直接設置rp=RobotFileParse('http://www.jianshu.com/robots.txt')

re.read()

#也可以這么設置rp.parse(urlopen('http://www.jianshu.com/robots.txt').read().decode('utf-8').splict('\n'))

print(rp.can_fetch('*','http://www.jianshu.com/p/b67554025d7d'))

print(rp.can_fetch('*', "http://www.jianshu.com/search?q=python&page=1&type=collections"))

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 Python網絡爬蟲規則之Robots協議爬蟲的Robots協議爬蟲的盜亦有道Robots協議 robots協議爬蟲之robots.txt 【Python3 爬蟲】15_Fiddler抓包分析 python3定時爬蟲 [Python3爬蟲從入門到精通]2.淘寶信息定向爬蟲實例分析【Python3爬蟲】拉勾網爬蟲【Python3爬蟲】微博用戶爬蟲