各組件的簡介

Hadoop:HDFS MR(清洗)YARN、需要部署hadoop集群
Hive：外部表、SQL、解決數據傾斜、sql優化、基於元數據管理、SQL到MR過程
Flume：將數據抽取到hdfs
調度：crontab、shell、Azkaban
HUE：可視化的notebook，CM自帶，排查數據

使用Flume/logstash抽取服務器上的日志數據以及使用sqoop/spark抽取關系型數據庫的數據，將數據抽取到HDFS（壓縮+普通文本格式）。將hdfs上數據通過（MR/Spark/Flink）清洗出來后存放數倉（hive）將原始的數據放到目標位置（hive的外部表）業務計算，將結果放到業務表（數據集市）應用程序查詢訪問，我們這個可通過HUE查看信息

處理流程圖

集群內的可用flume，beat，logstash等等采集工具
集群外的數據可以通過sqoop或者spark等一些平台或者框架來導入（如果從sql來解決就是平台型的，如果從代碼來解決就是業務型的）這里都是平台型來解決。
大部分公司都是以天級別來分log文件的；支持各種文本格式
清洗過后的數據一般都是落在hive之上；ETL（mr）出來之后的一個分區表
步驟是：數據清洗=>移動數據到數倉=>刷元數據信息最后用hue等工具展示數據

備注1：HUE是個非常強大且方便的可視化界面。在界面能操作hadoop生態圈的組件以及查詢查詢組件顯示信息。使用場景：排查數據
備注2: zeppelin和HUE較類似的一個工具，但是比HUE好用，目前市場主流是以改zeppelin源碼去做自己的可視化界面。
備注3：步驟2、3、4,的數據落地hdfs時，數據壓縮格式、數據的存儲格式選擇很重要

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 Hadoop和Hive的數據處理流程 090實戰 Hadoop離線項目介紹（不包括程序）自然語言處理項目流程離線數據分析之人物興趣取向分析（2-2）離線/實時項目架構|項目流程|數倉構建（進階篇） hadoop工作流程 Hadoop_MapReduce流程離線批處理之Spark swagger 文檔離線處理 jenkins 離線處理辦法【Hadoop離線基礎總結】MapReduce參數優化