爬蟲的Robots協議


爬蟲的規定

Robots協議

網站開發者對於網絡爬蟲的規范的公告,你可以不遵守可能存在法律風險,但盡量去遵守

Robots協議:在網頁的根目錄+/robots.txt  如www.baidu.com/robots.txt

Robots協議的基本語法:

#*代表所有,/代表根目錄
User-agent:* #user-agent代表來源
Allow:/ #代表運行爬取的內容
Disallow:/ #代表不可爬取的目錄,如果是/后面沒有寫內容,便是其對應的訪問者不可爬取所有內容

並不是所有網站都有Robots協議

如果一個網站不提供Robots協議,是說明這個網站對應所有爬蟲沒有限制

可以不參考robots協議,比如我們寫的小程序訪問量很少,內容也少但是內容不能用於商業用途

總的來說請准守Robots協議

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM