一.基本概念簡介
1.爬蟲:
自動獲取網站數據的程序,關鍵是批量的獲取。
2.反爬蟲:
使用技術手段防止爬蟲程序的方法。
3.誤傷:
反爬技術將普通用戶識別為爬蟲,如果誤傷過高,效果再好也不能用。(如局域網【學校,網吧等】可能用的是同一個ip,如果有人寫了一個爬蟲,把ip封了,可能損失很多用戶。還有可能ip動態分配,重啟路由器ip很有可能切換,而被禁的ip有可能在其他用戶那兒。)
4.攔截:
成功攔截爬蟲,一般攔截率越高,誤傷率越高。
二.反爬蟲的目的
1.初級爬蟲:
簡單暴力,不管服務器壓力,容易弄垮網站。
2.數據保護:
保護數據不被竊取。
3.失控爬蟲:
由於某些情況忘記或無法關閉的爬蟲。
4.商業競爭對手:
行業間競爭竊取數據。
三.爬蟲與反爬蟲對抗過程