了解一下,爬蟲可以分為以下四種類型:
- 聚焦網絡爬蟲(主題網絡爬蟲): 會針對某種特定的內容去爬取信息,且會保證信息和需求盡可能相關。
- 通用爬蟲(全網爬蟲):廣度優先策略或深度優先策略
獲取url,根據url爬頁面后獲取新url,在根據新url獲取新新url,滿足條件時停止爬取。
- 增量抓取:通過爬蟲程序檢測某網站數據更新情況,一遍可以爬取到該網站更新后的新數據。 適用場景--目標網站在原有網頁數據基礎上更新一批數據
- 表層網頁:不需要提交表單,適用靜態鏈接訪問的靜態頁面。
- 深層網頁:不能通過靜態鏈接直接獲取,需要提交一定的關鍵詞后才能獲取到的頁面。
參考:https://mp.weixin.qq.com/s/J8NYr1l64_kuUagLIGqUag