各組件的簡介
- Hadoop:HDFS MR(清洗)YARN、需要部署hadoop集群
- Hive:外部表、SQL、解決數據傾斜、sql優化、基於元數據管理、SQL到MR過程
- Flume:將數據抽取到hdfs
- 調度:crontab、shell、Azkaban
- HUE:可視化的notebook,CM自帶 ,排查數據
- 使用Flume/logstash抽取服務器上的日志數據以及使用sqoop/spark抽取關系型數據庫的數據,將數據抽取到HDFS(壓縮+普通文本格式)。 將hdfs上數據通過(MR/Spark/Flink)清洗出來后存放數倉(hive) 將原始的數據放到目標位置(hive的外部表) 業務計算,將結果放到業務表(數據集市) 應用程序查詢訪問,我們這個可通過HUE查看信息
處理流程圖
- 集群內的可用flume,beat,logstash等等采集工具
- 集群外的數據可以通過sqoop或者spark等一些平台或者框架來導入(如果從sql來解決就是平台型的,如果從代碼來解決就是業務型的)這里都是平台型來解決。
- 大部分公司都是以天級別來分log文件的;支持各種文本格式
- 清洗過后的數據一般都是落在hive之上;ETL(mr)出來之后的一個分區表
- 步驟是:數據清洗=>移動數據到數倉=>刷元數據信息 最后用hue等工具展示數據
備注1:HUE是個非常強大且方便的可視化界面。在界面能操作hadoop生態圈的組件以及查詢 查詢組件顯示信息。使用場景:排查數據
備注2: zeppelin和HUE較類似的一個工具,但是比HUE好用,目前市場主流是以改zeppelin源碼去做自己的可視化界面。
備注3:步驟2、3、4,的數據落地hdfs時,數據壓縮格式、數據的存儲格式選擇很重要