網絡爬蟲遵守規則


網絡爬蟲引發的問題

網絡爬蟲的尺寸

 

網絡爬蟲騷擾

 

 

網絡爬蟲的法律風險

網絡爬蟲泄露隱私

網絡爬蟲的限制

1.通過請求頭

 

 2.發布公告:Robots協議

告知所有爬蟲網站的爬取策略,要求爬蟲遵守。

 

 

Robots協議

網絡爬蟲排除標准

作用:告知網絡爬蟲哪些頁面可以抓取,哪些不行

形式:在網站根目錄下的robots.txt文件

 

 

 

案例:真實的Robots協議

 

https://www.baidu.com/robots.txt

 

http://news.sina.com.cn/robots.txt

 

https://www.qq.com/robots.txt

 

https://news.qq.com/robots.txt

 

http://www.moe.edu.cn/robots.txt (無robots協議)

 

 

 

Robots協議的遵守方法

 

 

 

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM