Hadoop發展歷史簡介


簡介

本篇文章主要介紹了Hadoop系統的發展歷史以及商業化現狀, 科普文。

如果你喜歡本博客,請點此查看本博客所有文章:http://www.cnblogs.com/xuanku/p/index.html

歷史發展過程

  1. 2002~2004

    當時第一輪互聯網泡沫剛剛破滅, 一個對搜索引擎特別了解但是同時又失去工作的屌絲Doug Cutting(1), 當時主要靠寫點技術專欄文章賺賺稿費。

    同時, 他聯合了另外一個RDMike Cafarella, 當時兩人覺得以后搜索被一個大公司給一統天下是一個很可怕的事情, 這家公司掌握信息入口, 能翻手為雲覆手為雨。

    所以決定自己搞一個開源的搜索引擎出來, 於是說干就干, 干了個項目叫Nutch

    兩人吭哧吭哧干了一年之后, 終於把這個系統干到能支持1億網頁的抓取, 索引和搜索了。但是當時的網站差不多就有10億, 網頁數量是萬億這個規模。這兩哥們也沒多想, 就是干, 繼續把網頁量給干到下一個數量級。

  2. 2004~2006

    結果很不巧, 在那個時候, Google公布了GFS和MapReduce兩篇Paper。這兩哥們一看, 完了, 這兩年白干了, 人家干得那才是漂亮, 自己現在干得實在是太苦逼了, 所有工作都處於人肉運維的狀態。

    那咋辦呢, 重構唄, 咋重構啊, 抄一個唄。於是就開始抄GFS和MapReduce, Google用的C++做, 他們用的Java做。到2004年的時候, 已經差不多能在40台左右的機器上運行了。

  3. 2006以后

    Dog Cutting跟好多我們同齡人一樣, 做了幾年公司, 發現干也干不過google了, 好像創業沒啥前途了, 那咋辦呢, 就找個大公司吧。這哥們本來一開始想去IBM, 但是人家IBM要做lucene, 不用Nutch。這哥們表示不開心, 就去問Yahoo願不願意要Nutch, 人家Yahoo有自己的搜索引擎, 也不願意要Nutch。不過Yahoo考慮了一下, 說雖然不要你的搜索系統, 但是你底層那幾個GFS/MapReduce那些東西還是挺有用的嘛, 要不你過來弄這個? Dog Cutting也就從了, 於是把底層系統剝離出來, 把自己兒子的一個大象的玩具的名字Hadoop賦予了這個項目。

    但是到目前為止, Hadoop其實還不能稱之為一個獨立的大數據項目, 頂多只能稱之為一個搜索系統的子項目, 因為他只有一個應用方, 就是搜索。

  4. 2006~

    當系統進入yahoo了以后, 項目逐漸發展並成熟了起來。首先是集群規模, 從最開始的幾十台機器的規模發展到能支持上千個節點的機器, 中間做了很多工程性質的工作, 然后是除搜索以外的業務放, yahoo逐步將自己的廣告系統的數據挖掘相關工作也遷移到了hadoop上面來, 進一步成熟化了hadoop系統。

    當有多個用戶方在使用hadoop系統的時候, 又必須要增加qos調度隊列等機制, 也必須要增加數據安全認證授權機制等等, 各種功能都加到hadoop上面來的時候, hadoop就算是真正成熟起來了。必須要稱道的一點是, 在成熟化整個系統的過程當中, yahoo一直都將hadoop做成一個開源軟件, 而不是自己的私有軟件。

Hadoop 商業化

在2008年的時候, 一位Google的工程師Christophe Bisciglia負責了Google跟IBM合作的一個自然科學項目, 這哥們發現要把當時的Hadoop放到任意一個集群中去運行時一件很困難的事情, 雖然項目是開源的, 但是當時其實主要是yahoo在用, 想要將hadoop商業化推給更多團隊在用, 可能想要進一步的動作將其從開源帶到業界。

於是這哥們就拉了幾個好基友, 一塊成立了一個專門商業化hadoop的公司: Cloudera。這個公司做了很多事情, 連接了開源和業界的鴻溝, 為hadoop生態的發展做出了非常重要的貢獻。為了更好的提供外圍服務, cloudera基於開源的Hadoop版本提供了另外一個叫CDH的Hadoop版本。

到后來, yahoo在2011年將hadoop團隊專門成立了一個子公司Hortonworks專門提供hadoop相關的服務。Baldeschwieler這哥們作為這個公司的老板。Hortonworks這個公司跟Cloudera不一樣, Hortonworks不再單獨提供一個版本的hadoop給用戶選擇, 而是完全基於和更新開源版本。但是他提供很牛B的三陪服務, 已經為很多公司, 比如微軟, Teradata, Rackspace 合作搭建他們自己的開源hadoop集群, 並在業界形成了很好的口碑。

市場上有兩種公司, 一種是聽說過Hadoop, 也想用, 但是自己也不知道能拿Hadoop來跑什么應用的公司; 一種是特別復雜, 像把自己一整套數據管理(保證數據可用性和安全性)能管理起來, 但是又不需要組建很大一個團隊來做這事兒, 期望能節約成本。

Hadoop對自己的可用性不是很有信心, 對達到很多小公司開箱既得的狀態還有差距, 所以Cloudera和Hortonworks都在做更多的膠水,包裝,文檔的工作。

在銷售過程中, Hortonworks老板的經驗是, 如果一個公司說: 來來來, 讓我們一起在數據里挖點寶貝出來, 那么這一定是一個非常漫長的銷售過程, 因為用戶自己都沒想好到底數據能拿來干嘛。所以一般的銷售出路是找到那種能直接為公司節約成本的方案, 畢竟現在還是有很多公司使用很昂貴的存儲和分析系統, Hadoop可以為這些公司節約成本。

已經給hadoop商業化扔進去了這么多錢, 市場上還是立竿見影看到了不少效果的:

  1. 引起了很大的業界很大的關注。有很多公司在為hadoop開發系列上層應用, 框架以及管理軟件。
  2. 像EMC/Intel等好多公司從預算中撥款搭建自己的hadoop集群。
  3. 所有在銷售數據庫, BI軟件, 以及其他跟數據相關的軟件都會跟Hadoop扯上關系。

但是現狀的Hadoop商業化也會有一些隱患:

  1. 類似linux的90年代, 會有一萬個基於其開源版本之上的不同包裝的XX版本;
  2. 像Cloudera和Hortonworks之間已經有了很多公開的吵架, 誰對開源社區貢獻得最多, 以及部分軟件已經不開源了, 或者相互不配合;

參考

  1. Hadoop之父. http://www.programmer.com.cn/15929/
  2. A Brief Hadoop History. https://gigaom.com/2013/03/04/the-history-of-hadoop-from-4-nodes-to-the-future-of-data/


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM