案例簡介
網站用戶行為分析本案例涉及數據預處理、存儲、查詢和可視化分析等數據處理全流程所涉及的各種典型操作,涵蓋Linux、MySQL、Hadoop、HBase、Hive、Sqoop、R、Eclipse等系統和軟件的安裝和使用方法。
案例目的
- 熟悉Linux系統、MySQL、Hadoop、HBase、Hive、Sqoop、R、Eclipse等系統和軟件的安裝和使用;
- 了解大數據處理的基本流程;
- 熟悉數據預處理方法;
- 熟悉在不同類型數據庫之間進行數據相互導入導出;
- 熟悉使用R語言進行可視化分析;
- 熟悉使用Elipse編寫Java程序操作HBase數據庫。
硬件要求
本案例可以在單機上完成,也可以在集群環境下完成。
單機上完成本案例實驗時,建議計算機硬件配置為:500GB以上硬盤,8GB以上內存。
軟件工具
本案例所涉及的系統及軟件
- Linux系統
- MySQL
- Hadoop
- HBase
- Hive
- Sqoop
- R
- Eclipse
數據集
網站用戶購物行為數據集2000萬條記錄。
案例任務
- 安裝Linux操作系統
- 安裝關系型數據庫MySQL
- 安裝大數據處理框架Hadoop
- 安裝列族數據庫HBase
- 安裝數據倉庫Hive
- 安裝Sqoop
- 安裝R
- 安裝Eclipse
- 對文本文件形式的原始數據集進行預處理
- 把文本文件的數據集導入到數據倉庫Hive中
- 對數據倉庫Hive中的數據進行查詢分析
- 使用Sqoop將數據從Hive導入MySQL
- 使用Sqoop將數據從MySQL導入HBase
- 使用HBase Java API把數據從本地導入到HBase中
- 使用R對MySQL中的數據進行可視化分析