爬蟲的規定
Robots協議
網站開發者對於網絡爬蟲的規范的公告,你可以不遵守可能存在法律風險
,但盡量去遵守
Robots協議:在網頁的根目錄+/robots.txt 如www.baidu.com/robots.txt
Robots協議的基本語法:
#*代表所有,/代表根目錄 User-agent:* #user-agent代表來源 Allow:/ #代表運行爬取的內容 Disallow:/ #代表不可爬取的目錄,如果是/后面沒有寫內容,便是其對應的訪問者不可爬取所有內容
並不是所有網站都有Robots協議
如果一個網站不提供Robots協議,是說明這個網站對應所有爬蟲沒有限制
可以不參考robots協議,比如我們寫的小程序訪問量很少,內容也少但是內容不能用於商業用途
總的來說請准守Robots協議