王家林親授的上海7月6-7日雲計算分布式大數據Hadoop深入淺出案例驅動實戰
家林會帶您在10分鍾內理解雲計算分布式大數據處理框架Hadoop並開始動手實踐,倒計時開始……
更多Hadoop交流可以聯系家林:
新浪微博:http://weibo.com/ilovepains
QQ:1740415547
QQ群:312494188
Weixin:wangjialinandroid
官方博客:http://www.cnblogs.com/guoshiandroid/
王家林的“雲計算分布式大數據Hadoop實戰高手之路”之完整目錄
第1分鍾:
Hadoop要解決的問題是什么?
答:Hadoop核心要解決長期IT界乃至人類社會的兩大主題:
1, 海量數據的存儲:傳統的存儲方式昂貴而且日益難以滿足核裂變級別數據的增長,例如紐約證券交易所每天要產生T級別的數據量,Facebook要每天要服務過億的用戶(其中圖片等數據`量是驚人的),如何使用廉價的設備支持無線增長的數據的安全高效的存儲,Hadoop提出了解決方案,即HDFS.
2, 海量數據的分析:如何有效而快速的從海量數據中提取出有價值的信息,Hadoop給出了解決方案,即MapReduce.
HDFS和MapReduce是Hadoop整個項目的基礎和核心,Hadoop龐大的家族中的其它子項目都是基於HDFS和MapReduce,所以掌握HDFS和MapReduce也就掌握了Hadoop的核心。
第2分鍾:
Hadoop的來源和發展歷史是什么?
答:始於2002年Apache搜索引擎項目Nutch,2004年Nutch的開發者基於Google發表的著名的GFS論文開發出了開源版本的GFS即NDFS,2005年基於Google發表的著名的MapReduce論文把MapReduce引入NDFS,2006年改名為Hadoop,NDFS的創始人加入Yahoo,同時Yahoo成立專門的小組發展Hadoop。
可以看出,在Hadoop的發展過程中,除了其創始人外,Google和Yahoo居功至偉。
第3分鍾:
Hadoop到底是什么?
答:Hadoop是基於廉價設備利用集群的威力對海量數據進行安全存儲和高效計算的分布式存儲和分析框架,Hadoop本身是一個龐大的項目家族,其核心家族或者底層是HDFS和MapReduce,HDFS和MapReduce分別用來實現對海量數據的存儲和分析,其它的項目,例如Hive、HBase等都是基於HDFS和MapReduce,是為了解決特定類型的大數據處理問題而提出的子項目,使用Hive、HBase等子項目可以在更高的抽象的基礎上更簡單的編寫分布式大數據處理程序。Hadoop的其它子項目還包括Common, Avro, Pig, ZooKeeper, Sqoop, Oozie 等,隨着時間的推移一些新的子項目會被加入進來,一些關注度不高的項目會被移除Hadoop家族,所以Hadoop是一個充滿活力的系統。
第4分鍾:
什么問題場景下適合使用HDFS?什么場景下不適合采用HDFS?
答:
適合使用Hadoop的場景:非常大的文件,包括單個文件非常大(例如超過100G大小的文件)和文件總大小非常大(例如達到P級別),即支持海量的數據;“write-once,read-many-times”的Streaming的文件訪問方式;普通的硬件系統支持大數據的處理;
不適用Hadoop的場景:低延遲的數據訪問;有很多細小文件的系統;要多次寫入和修改的文件系統;
第5分鍾:
如何解讀HDFS架構圖?
答:架構圖如下:
HDFS架構圖的解讀:
1,HDFS會把一個大文件分成很多小些的文件,把這些小文件存放在不同的節點上;
2, 這些數據存放的節點叫做DataNode,DataNade中存放HDFS中定義的Block,即數據塊,每塊的大小是64M;
3,HDFS把大文件分成的多個小文件不僅存放在不同的節點上,而且同一個文件塊在不同的節點上有多個副本;
4,記錄這些數據和數據划分以及存儲信息的節點叫做NameNode,NameNode是關鍵性的配置文件,而且是單一節點存在的,在2.x開始使用了HA策略,即HDFS支持NameNode的active-standy模式了;
5, 客戶端請求Hadoop中的數據時先要訪問NameNode,從NameNode中獲取DataNode中數據存儲的信息后,才進行具體數據的訪問;
第6分鍾:
MapReduce到底是如何工作的?
答:家林舉個例子你就明白了:求20個數據中的最大數,一般的編程方式把第一個數據開始往后面一個個的比較,總是把更大的數據記錄下來,這樣順序比較下去,最后就得到了最大的數據;但是MapReduce的做法是把這20個數據分成4組,每組5個數據,每組采用Map函數求出最大值,然后后每組把求得的各自最大值交給Reduce,由Reduce得出最后的最大值;
簡言之:MapReduce的工作方式就是大事化小,並行工作,各個擊破。
第7分鍾:
為什么要學習Hadoop?
答:Hadoop是雲計算的具體實踐技術,是處理大數據的開源框架,而大數據處理是IT界越來越熱的主題,通過Hadoop開源代碼的學習也是工程師提升自己功力的一個絕佳途徑。
第8分鍾:
如何開始學習Hadoop?
答:先搭建好Hadoop的單擊環境、偽分布式環境和分布式環境。
第9分鍾:
如何沒有任何障礙的成為Hadoop高手?
答:學習免費發布王家林的雲計算分布式大數據Hadoop實戰高手之路(共3本書):
1,王家林編寫的“雲計算分布式大數據Hadoop實戰高手之路---從零開始”帶領您無痛入門Hadoop並能夠處理Hadoop工程師的日常編程工作,進入雲計算大數據的美好世界。
2,王家林編寫的“雲計算分布式大數據Hadoop實戰高手之路---高手崛起”通過數個案例實戰和Hadoop高級主題的動手操作帶領您直達Hadoop高手境界。
3,王家林編寫的“雲計算分布式大數據Hadoop實戰高手之路---高手之巔”通過當今主流的Hadoop商業使用方法和最成功的Hadoop大型案例讓您直達高手之巔,從此一覽眾山小。
第10分鍾:
進入家林的Hadoop教程,開始搭建Hadoop開發環境!