hadoop離線項目處理流程


 各組件的簡介

  1.  Hadoop:HDFS MR(清洗)YARN、需要部署hadoop集群
  2. Hive:外部表、SQL、解決數據傾斜、sql優化、基於元數據管理、SQL到MR過程
  3. Flume:將數據抽取到hdfs
  4. 調度:crontab、shell、Azkaban
  5. HUE:可視化的notebook,CM自帶 ,排查數據
  • 使用Flume/logstash抽取服務器上的日志數據以及使用sqoop/spark抽取關系型數據庫的數據,將數據抽取到HDFS(壓縮+普通文本格式)。 將hdfs上數據通過(MR/Spark/Flink)清洗出來后存放數倉(hive) 將原始的數據放到目標位置(hive的外部表) 業務計算,將結果放到業務表(數據集市) 應用程序查詢訪問,我們這個可通過HUE查看信息

  

 處理流程圖

 

 

  1. 集群內的可用flume,beat,logstash等等采集工具
  2. 集群外的數據可以通過sqoop或者spark等一些平台或者框架來導入(如果從sql來解決就是平台型的,如果從代碼來解決就是業務型的)這里都是平台型來解決。
  3. 大部分公司都是以天級別來分log文件的;支持各種文本格式
  4. 清洗過后的數據一般都是落在hive之上;ETL(mr)出來之后的一個分區表
  5. 步驟是:數據清洗=>移動數據到數倉=>刷元數據信息 最后用hue等工具展示數據

 

 

備注1:HUE是個非常強大且方便的可視化界面。在界面能操作hadoop生態圈的組件以及查詢 查詢組件顯示信息。使用場景:排查數據
備注2: zeppelin和HUE較類似的一個工具,但是比HUE好用,目前市場主流是以改zeppelin源碼去做自己的可視化界面。
備注3:步驟2、3、4,的數據落地hdfs時,數據壓縮格式、數據的存儲格式選擇很重要


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM