網絡爬蟲按照系統結構和實現技術,大致可以分為以下幾種類型
-
通用網絡爬蟲:全網爬蟲,爬取對象有種子URL擴展到整個網絡
-
聚焦網絡爬蟲:又稱主題網絡爬蟲是指選擇性地爬行那些與預先定義好的主體頁面相關的網絡爬蟲
-
增量式網絡爬蟲:對已爬取的網頁進行增量式更新或只爬行新產生的或者已經發生變化網頁的爬蟲
-
深層網絡爬蟲
實際的網絡爬蟲是集中爬蟲技術相結合實現的
下面對這幾種爬蟲進行詳細的介紹
名稱 | 場景 | 特點 | 缺點 |
---|---|---|---|
通用網絡爬蟲 | 門戶站點搜索引擎、大型Web服務提供商采集數據 | 爬行范圍和數量巨大、爬行頁面順序要求低、並行工作方式,爬取互聯網上的所有數據 | 爬蟲速度和存儲空間要求高、刷新頁面的時間長 |
聚焦網絡爬蟲 | 又稱主題網絡爬蟲,只爬行特定的數據,商品比價 | 極大 節省了硬件和網絡資源,頁面更新快 | |
增量式網絡爬蟲 | 只抓取剛剛更新的數據 | 數據下載量少,及時更新已爬行的網頁,減少時間可空間上的耗費、爬取到的都是最新頁面 | 增加了爬行算法的復雜度和實現難度 |
深層網絡爬蟲 |