1.概述
本課程的視頻教程地址:《Hadoop 回顧》
好的,下面就開始本篇教程的內容分享,本篇教程我為大家介紹我們要做一個什么樣的Hadoop項目,並且對Hadoop項目的基本特點和其中的難點做有針對性的剖析,完成項目環境的基本配置,以及項目工程和Hadoop插件的相關准備等工作。
本課程主要包含以下課時,其內容如下圖所示:
本節為大家分享的是第一節——《Hadoop 回顧》,下面開始今天的分享內容。
2.內容
從這節開始,我們將進入到Hadoop項目的實戰學習,本節課程為大家介紹的主要知識點有一下內容,如下圖所示:
首先,我們來看看本節的Hadoop的業務知識點,業務場景如下:
假設現在有以下場景,用戶每天都會對某網站進行點擊,這些點擊都會記錄到日志中,然后分析用戶在網站的使用習慣。
其內容包含如下內容,如下圖所示:
接着,是Hadoop的應用場景,其內容包含如下內容,如下圖所示:
通過閱讀上圖,下面我給大家解釋以下這個圖中所設計的含義:
1.Hadoop的核心之一,就是它的離線計算模型MapReduce。
- 在數據統計中,統計網站的PV、UV
- 大規模Web信息搜索
- 一些復雜的算法
MapReduce都能非常友好的實現。
2.海量數據的離線分析
在MapReduce框架下,很難處理實時計算,作業都以日志分析這樣的離線作業為主。
3.靜態數據源
Hadoop要保證分析與計算的數據源是靜態的,不能是實時的流水數據。這也是Hadoop自身設計特點決定了數據源必須是靜態的。
在了解了Hadoop的應用場景和業務場景之后,下面我們來看看用戶行為分析平台的搭建需要注意哪些事項,注意事項包含以下內容,如下圖所示:
1.平台的高可用性
如圖所示,這是一個高可用平台的簡要說明圖,在Hadoop2.x版本后,Hadoop提出了HA方案。HA方案的出現,解決了第一代的單點問題,在圖中,我們可以看出,在Client請求服務時,若NameNode Active(NNA)節點宕機,整個集群依然是可用的,NameNode Standby(簡稱NNS)節點會立馬切換自己的狀態,由Standby切換為Active,並對外提供服務。保證集群的高可用性。
注:下面是集群的啟動演示,可以參考視頻的啟動步驟:《Hadoop 回顧》
2.在對NameNode Active節點和NameNode Standby節點配置時
hdfs-site.xml和core-site.xml兩個文件中HDFS的NameService要保持一致;
在配置HA的實現時,Hadoop官方提供了兩種NameNode HA的實現方式,分別是QJM和NFS,同學們可自選一種實現。
3.在配置YARN的相關配置文件
yarn-site.xml文件,有一個屬性需要特別注意,它就是yarn.resourcemanager.ha.id這個屬性。假設,我們在NNA節點上配置的是value值是rm1,那么在NNS節點上我們得將value換成rm2。
4.在集群啟動時,需注意按照以下順序
第一步:由於我們選擇的是QJM方案,需要使用到zookeeper,所以在各個DataNode節點上啟動zookeeper服務
第二步:在其中一台NameNode節點(這里我預選取的是NameNode Active節點)啟動journalnode服務,該服務用於共享存儲,同步節點信息。
第三步:若是首次啟動,需要在其中一台NameNode Active節點上格式HDFS
第四步:接着我們同樣一台NameNode Active節點格式化zkfc,它對應的類是DFSZKFailoverController
第五步:在NameNode Active節點啟動hdfs服務和yarn服務
第六步:同步NameNode Active節點的元數據
3.結束語
這就是本節的主要內容,主要就對Hadoop做一個回顧學習,對后續學習Hadoop項目實戰做一個准備工作。
如果本教程能幫助到您,希望您能點擊進去觀看一下,謝謝您的支持!
轉載請注明出處,謝謝合作!
本課程的視頻教程地址:《Hadoop 回顧》