爬蟲的規定

Robots協議

網站開發者對於網絡爬蟲的規范的公告,你可以不遵守可能存在法律風險,但盡量去遵守

Robots協議:在網頁的根目錄+/robots.txt 如www.baidu.com/robots.txt

Robots協議的基本語法:

#*代表所有,/代表根目錄
User-agent:* #user-agent代表來源
Allow:/ #代表運行爬取的內容
Disallow:/ #代表不可爬取的目錄,如果是/后面沒有寫內容,便是其對應的訪問者不可爬取所有內容

並不是所有網站都有Robots協議

如果一個網站不提供Robots協議,是說明這個網站對應所有爬蟲沒有限制

可以不參考robots協議,比如我們寫的小程序訪問量很少,內容也少但是內容不能用於商業用途

總的來說請准守Robots協議

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 爬蟲協議robots 爬蟲的盜亦有道Robots協議 python3 爬蟲5--分析Robots協議 Python網絡爬蟲規則之Robots協議 Robots協議（爬蟲協議、機器人協議） Robots協議（爬蟲協議、機器人協議） robots協議 Python爬蟲學習（一）使用requests庫和robots協議爬蟲之robots.txt 如何查看robots協議？怎么寫？