網絡爬蟲引發的問題
網絡爬蟲的尺寸

網絡爬蟲騷擾

網絡爬蟲的法律風險
網絡爬蟲泄露隱私
網絡爬蟲的限制
1.通過請求頭

2.發布公告:Robots協議
告知所有爬蟲網站的爬取策略,要求爬蟲遵守。
Robots協議
網絡爬蟲排除標准
作用:告知網絡爬蟲哪些頁面可以抓取,哪些不行
形式:在網站根目錄下的robots.txt文件


案例:真實的Robots協議
https://www.baidu.com/robots.txt
http://news.sina.com.cn/robots.txt
https://news.qq.com/robots.txt
http://www.moe.edu.cn/robots.txt (無robots協議)
Robots協議的遵守方法


