簡單了解下四種爬蟲類型


了解一下,爬蟲可以分為以下四種類型:

  • 聚焦網絡爬蟲(主題網絡爬蟲): 會針對某種特定的內容去爬取信息,且會保證信息和需求盡可能相關。
  • 通用爬蟲(全網爬蟲):廣度優先策略或深度優先策略  

  獲取url,根據url爬頁面后獲取新url,在根據新url獲取新新url,滿足條件時停止爬取。

  • 增量抓取:通過爬蟲程序檢測某網站數據更新情況,一遍可以爬取到該網站更新后的新數據。
  • 適用場景--目標網站在原有網頁數據基礎上更新一批數據
  • 表層網頁:不需要提交表單,適用靜態鏈接訪問的靜態頁面。
  • 深層網頁:不能通過靜態鏈接直接獲取,需要提交一定的關鍵詞后才能獲取到的頁面。  

參考:https://mp.weixin.qq.com/s/J8NYr1l64_kuUagLIGqUag


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM