大數據平台網站日志分析系統


1:大數據平台網站日志分析系統,項目技術架構圖:

2:大數據平台網站日志分析系統,流程圖解析,整體流程如下:

  ETL即hive查詢的sql;

  但是,由於本案例的前提是處理海量數據,因而,流程中各環節所使用的技術則跟傳統BI完全不同:

    1) 數據采集:定制開發采集程序,或使用開源框架FLUME

    2) 數據預處理:定制開發mapreduce程序運行於hadoop集群

    3) 數據倉庫技術:基於hadoop之上的Hive

    4) 數據導出:基於hadoop的sqoop數據導入導出工具

    5) 數據可視化:定制開發web程序或使用kettle等產品

    6) 整個過程的流程調度:hadoop生態圈中的oozie工具或其他類似開源產品

3:在一個完整的大數據處理系統中,除了hdfs+mapreduce+hive組成分析系統的核心之外,還需要數據采集、結果數據導出、任務調度等不可或缺的輔助系統,而這些輔助工具在hadoop生態體系中都有便捷的開源框架,如圖所示:

 4:采集網站的點擊流數據分析項目流程圖分析:


5:流式計算一般架構圖:

6:Spark和Hadoop之間的關系:

待續......


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM