《C# 爬蟲 破境之道》:概述


第一節:寫作本書的目的

  關於筆者

  張曉亭(Mike Cheers),1982年出生,內蒙古遼闊的大草原是我的故鄉。

  沒有高學歷,沒有侃侃而談的高談闊論,擁有的就是那一份對技術的執著,對自我價值的追求。

  我是誰,其實並不重要,我是高級開發、我是架構師、我是技術經理,這些都是我,跟各位沒有半毛錢關系。最重要的是,我能給讀者帶來什么。接下來的日子里,就看看本書能給各位帶來什么驚喜,也許到最后,你都不會記得我的名字,沒有關系,相信我,那並不重要。

  關於本書

  本書是《破境之道》系列技術叢書中的一部分,將針對使用C#開發數據采集器(俗稱爬蟲)進行系統全面的講解,寫作意圖就是希望能夠通過本書使讀者能夠深入掌握有關爬蟲的方方面面。所謂“破境”,源自修行者在修行之路上對境界的突破。這里也深含着筆者對讀者的一份殷切期望,希望能夠幫助讀者在技術修行的道路上,達到“武道巔峰”。

  本系列叢書又名《看完丟掉》。知識、技術逐漸變成快銷品,雖然筆者也不願意這樣,但回頭看看,當初步入修行隊伍時,使用的ASP、VBScript等等,也早已淡出人們的視線,相信所剩無幾了吧。時代在發展,科技在進步,大多數從業者也都習慣了每日甚至是沒日沒夜的追隨新的前沿技術潮流,雖已疲憊不堪,但也樂此不疲。這也是本系列叢書在命名上對從業者的期許,希望能夠幫助讀者詳細梳理知識點,在心中形成知識體系,並通過各種角度分析加深印象,牢記於心,將知識從枯燥的文字搬入腦海。那么,然后呢,這本書就可以丟掉了!不要止步,還有更多的知識在等待着我們。

  本系列叢書,將盡量使用當下最為流行甚至前沿的技術版本,但,畢竟寫作也需要耗費大量的時間精力,可能在您看到本書的時候,它已失去了耀眼的光輝,不過還是希望能夠對那些沒有技術框架更新需求或計划的產品線有所幫助。同樣,如果讀者對某些知識點還存在疑惑,也可以通過本書來進行一個查漏補缺,相信對快速掌握新技術也是會有所幫助的。

  本書的寫作目的很明確,深入探究C# 爬蟲的技術細節以及在實際工作中,需要注意的“坑”。

  本書並不是入門書籍,並沒有將知識點做層次划分,因為實際生產過程中,要求就是很高,沒有產品經理跑過來會對你說:“兄弟,咱們這周先搭一個入門級商城先用着,下周再升級成中級,月底咱們再升級成高級的,你說好不好?”。相信他這么說,你是很滿意了,因為你看到的入門書籍太多了,很習慣,很適應甚至是很喜歡,不過,到不了月底,這位產品經理可能已經離去了。

 

第二節:使用C#開發爬蟲 概述

  主要功能特性

 

  • 分布式:爬蟲從單點向集群發展已經是一個大趨勢,當然,視實際情況而定,並不是所有需求都必須要做成集群,但筆者希望從業人員都具有擴展它的能力。
  • 兩套模板:采集模板和分析模板,當我們的采集目標是不固定的,我們更希望在切換到下一個目標的時候,能夠少寫代碼,盡量通過配置來完成。
  • 多線程:在數據采集、數據處理領域,多線程是必不可少的基本功。
  • 緩存的應用:緩存有助於我們提高系統的整體性能,但它也是雙刃劍,在實際應用中,需要多方考量,謹慎使用。
  • 數據存儲:數據存儲的介質、思路、方式有很多,沒有什么是最好的,就像使刀還是使劍,各有所長,建議在開發階段,使用順手的吧,也提倡嘗鮮,但在生產環境中,還是使用最適合的。
  • 數據源:在采集過程中,我們經常會碰到一些阻礙,來自技術本身、個人能力或者數據源本身的問題,那么,我們需要擴寬思路,不要在一棵樹上吊死,嘗試換個思路和路徑,也許能達到更好的效果。
  • 可擴展:本書盡可能的讓讀者能夠開發出一套可擴展性強的爬蟲系統,包括但不限於:可擴充節點、靈活的配置、自定義接口等。

  這些特性都將融入在具體章節中詳細講解。

  • 第三節:開發環境准備

      想要開始我們的MVC之旅,開發環境是必不可少的,但是本書並不想浪費過多筆墨在基礎環境搭建上,只是列出基礎環境需求以及本書中使用的IDE開發環境。

  •  Windows操作系統
  •  Visual Studio 2017
  •  .Net Framework 4.6.1
  •  數據庫(為了避免大家對使用何種數據庫產生分歧,本書盡量使用文件系統,比較中立,至於生產環境使用何種數據庫,取決的因素很多,后續章節中,也會給出一些建議)
  •  但還是需要讀者有一定的C#及數據庫方面的知識,越強越好!可以參閱本系列叢書中的其他書籍。

 

喜歡本系列叢書的朋友,可以點擊鏈接加入QQ交流群(994761602)【C# 破境之道】
方便各位在有疑問的時候可以及時給我個反饋。同時,也算是給各位志同道合的朋友提供一個交流的平台。
需要源碼的童鞋,也可以在群文件中獲取最新源代碼。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM