《C# 爬蟲 破境之道》:第一境 爬蟲原理 — 第一節:整體思路


  在構建本章節內容的時候,筆者也在想一個問題,究竟什么樣的采集器框架,才能算得上是一個“全能”的呢?就我自己以往項目經歷而言,可以歸納以下幾個大的分類:

  1. 根據通訊協議:HTTP的、HTTPS的、TCP的、UDP的;
  2. 根據數據類型:純文本的、json的、壓縮包的、圖片的、視頻的;
  3. 根據更新周期:不定期更新的、定期更新的、增量更新的;
  4. 根據數據來源:單一數據源、多重數據源、多重數據源混合;
  5. 根據采集點分布:單機的,集群的;
  6. 根據反爬蟲策略:控制頻率的,使用代理的,使用特定UA的;
  7. 根據配置:可配置的,不可配置的;

  以上的分類,也有可能不夠全面,不過應該可以涵蓋主流數據采集的分類了。

  為了方便闡述一個爬蟲的工作原理,我們從上面找到一條最簡單路徑,來進行闡述(偷奸耍滑?非也,大道化簡,萬變不離其宗:)

  OK,一個小目標,單機、單一數據源、定期更新、純文本、HTTP的爬蟲,來一只。

 

在第一境的后面各節中,我們就來逐步實現這個小目標,同時,也來探究一下其中的原理。只有掌握了這些,才能通過繼續擴展,衍生出強大的爬蟲:)

喜歡本系列叢書的朋友,可以點擊鏈接加入QQ交流群(994761602)【C# 破境之道】
方便各位在有疑問的時候可以及時給我個反饋。同時,也算是給各位志同道合的朋友提供一個交流的平台。
需要源碼的童鞋,也可以在群文件中獲取最新源代碼。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM