Hadoop項目實戰-用戶行為分析之應用概述(一)


1.概述

  本課程的視頻教程地址:《Hadoop 回顧

  好的,下面就開始本篇教程的內容分享,本篇教程我為大家介紹我們要做一個什么樣的Hadoop項目,並且對Hadoop項目的基本特點和其中的難點做有針對性的剖析,完成項目環境的基本配置,以及項目工程和Hadoop插件的相關准備等工作。

  本課程主要包含以下課時,其內容如下圖所示:

  本節為大家分享的是第一節——《Hadoop 回顧》,下面開始今天的分享內容。

2.內容

  從這節開始,我們將進入到Hadoop項目的實戰學習,本節課程為大家介紹的主要知識點有一下內容,如下圖所示:

  首先,我們來看看本節的Hadoop的業務知識點,業務場景如下:

  假設現在有以下場景,用戶每天都會對某網站進行點擊,這些點擊都會記錄到日志中,然后分析用戶在網站的使用習慣。

  其內容包含如下內容,如下圖所示:

  接着,是Hadoop的應用場景,其內容包含如下內容,如下圖所示:

  通過閱讀上圖,下面我給大家解釋以下這個圖中所設計的含義:

  1.Hadoop的核心之一,就是它的離線計算模型MapReduce。

  • 在數據統計中,統計網站的PV、UV
  • 大規模Web信息搜索
  • 一些復雜的算法

  MapReduce都能非常友好的實現。

  2.海量數據的離線分析
  在MapReduce框架下,很難處理實時計算,作業都以日志分析這樣的離線作業為主。

  3.靜態數據源
  Hadoop要保證分析與計算的數據源是靜態的,不能是實時的流水數據。這也是Hadoop自身設計特點決定了數據源必須是靜態的。

  在了解了Hadoop的應用場景和業務場景之后,下面我們來看看用戶行為分析平台的搭建需要注意哪些事項,注意事項包含以下內容,如下圖所示:
 

  1.平台的高可用性  

  如圖所示,這是一個高可用平台的簡要說明圖,在Hadoop2.x版本后,Hadoop提出了HA方案。HA方案的出現,解決了第一代的單點問題,在圖中,我們可以看出,在Client請求服務時,若NameNode Active(NNA)節點宕機,整個集群依然是可用的,NameNode Standby(簡稱NNS)節點會立馬切換自己的狀態,由Standby切換為Active,並對外提供服務。保證集群的高可用性。

  注:下面是集群的啟動演示,可以參考視頻的啟動步驟:《Hadoop 回顧
  2.在對NameNode Active節點和NameNode Standby節點配置時
  hdfs-site.xml和core-site.xml兩個文件中HDFS的NameService要保持一致;
在配置HA的實現時,Hadoop官方提供了兩種NameNode HA的實現方式,分別是QJM和NFS,同學們可自選一種實現。
  3.在配置YARN的相關配置文件
  yarn-site.xml文件,有一個屬性需要特別注意,它就是yarn.resourcemanager.ha.id這個屬性。假設,我們在NNA節點上配置的是value值是rm1,那么在NNS節點上我們得將value換成rm2。

  4.在集群啟動時,需注意按照以下順序
  第一步:由於我們選擇的是QJM方案,需要使用到zookeeper,所以在各個DataNode節點上啟動zookeeper服務
  第二步:在其中一台NameNode節點(這里我預選取的是NameNode Active節點)啟動journalnode服務,該服務用於共享存儲,同步節點信息。
  第三步:若是首次啟動,需要在其中一台NameNode Active節點上格式HDFS
  第四步:接着我們同樣一台NameNode Active節點格式化zkfc,它對應的類是DFSZKFailoverController
  第五步:在NameNode Active節點啟動hdfs服務和yarn服務
  第六步:同步NameNode Active節點的元數據

 3.結束語

  這就是本節的主要內容,主要就對Hadoop做一個回顧學習,對后續學習Hadoop項目實戰做一個准備工作。

  如果本教程能幫助到您,希望您能點擊進去觀看一下,謝謝您的支持!

  轉載請注明出處,謝謝合作!

   本課程的視頻教程地址:《Hadoop 回顧


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM