《基於Apache Kylin構建大數據分析平台》

本文轉載自查看原文 2016-12-16 13:27 2309

Kyligence聯合創始人兼CEO，Apache Kylin項目管理委員會主席（PMC Chair）韓卿

武漢市雲升科技發展有限公司董事長，《智慧城市—大數據、物聯網和雲計算之應用》作者楊正洪

萬達網絡科技集團大數據中心副總經理，《Spark高級數據分析》中文版譯者龔少成

數據架構師，IT脫口秀（清風那個吹）創始人，《開源大數據分析引擎Impala實戰》作者賈傳青

等等業內專家聯合推薦

Apache Kylin是一個開源的分布式分析引擎，提供Hadoop之上的SQL查詢接口及多維分析（OLAP）能力以支持超大規模數據，最初由eBay公司開發並貢獻至開源社區。它能在亞秒內查詢巨大的Hive表。

本書分為21章，詳細講解Apache Kylin概念、安裝、配置、部署，讓讀者對Apache Kylin構建大數據分析平台有一個感性認識。同時，本書從應用角度，結合Dome和實例介紹了用於多維分析的Cube算法的創建、配置與優化。最后還介紹了Kyligence公司發布KAP大數據分析平台，對讀者有極大的參考價值。

本書適合大數據技術初學者、大數據分析人員、大數據架構師等，也適合用於高等院校和培訓學校相關專業師生教學參考。

第一部分 Apache Kylin基礎部分

第1章 Apache Kylin前世今生 3

1.1 Apache Kylin的背景 3

1.2 Apache Kylin的應用場景 3

1.3 Apache Kylin的發展歷程 4

第2章 Apache Kylin前奏 7

2.1 事實表和維表 7

2.2 星型模型和雪花型模型 7

2.2.1 星型模型 7

2.2.2 雪花型模型 8

2.2.3 星型模型示例 8

2.3 OLAP 9

2.3.1 OLAP分類 9

2.3.2 OLAP的基本操作 10

2.4 數據立方體（Data Cube） 11

第3章 Apache Kylin 工作原理和體系架構 12

3.1 Kylin工作原理 12

3.2 Kylin體系架構 13

3.3 Kylin中的核心部分：Cube構建 15

3.4 Kylin的SQL查詢 16

3.5 Kylin的特性和生態圈 16

第4章搭建CDH大數據平台 18

4.1 系統環境和安裝包 19

4.1.1 系統環境 19

4.1.2 安裝包的下載 20

4.2 准備工作：系統環境搭建 21

4.2.1 網絡配置(CDH集群所有節點) 21

4.2.2 打通SSH，設置ssh無密碼登錄（所有節點） 21

4.3 正式安裝CDH：准備工作 29

4.4 正式安裝CDH5：安裝配置 30

4.4.1 CDH5的安裝配置 30

4.4.2 對Hive、HBase執行簡單操作 39

第5章使用Kylin構建企業大數據分析平台的4種部署方式 41

5.1 Kylin部署的架構 41

5.2 Kylin的四種典型部署方式 42

第6章單獨為Kylin部署HBase集群 44

第7章部署Kylin集群環境 58

7.1 部署Kylin的先決條件 58

7.2 部署Kylin集群環境 61

7.3 為Kylin集群搭建負載均衡器 70

7.3.1 搭建Nginx環境 70

7.3.2 配置Nginx實現Kylin的負載均衡 73

第二部分 Apache Kylin 進階部分

第8章 Demo案例實戰 77

8.1 Sample Cube案例描述 77

8.2 Sample Cube案例實戰 78

8.2.1 准備數據 78

8.2.2 構建Cube 81

第9章多維分析的Cube創建實戰 89

9.1 Cube模型 89

9.2 創建Cube的流程 90

9.2.1 步驟一：Hive中事實表，以及多張維表的處理 90

9.2.2 步驟二：Kylin中建立項目（Project） 95

9.2.3 步驟三：Kylin中建立數據源（Data Source） 95

9.2.4 步驟四：Kylin中建立數據模型（Model） 98

9.2.5 步驟五：Kylin中建立Cube 104

9.2.6 步驟六：Build Cube 114

9.2.7 步驟七：查詢Cube 118

第10章 Build Cube的來龍去脈 120

10.1 流程分析 120

10.2 小結 134

第三部分 Apache Kylin 高級部分

第11章 Cube優化 137

第12章備份Kylin的Metadata 142

12.1 Kylin的元數據 142

12.2 備份元數據 143

12.3 恢復元數據 146

第13章使用Hive視圖 147

13.1 使用Hive視圖 147

13.2 使用視圖實戰 149

第14章 Kylin的垃圾清理 153

14.1 清理元數據 153

14.2 清理存儲器數據 154

第15章 JDBC訪問方式 157

第16章通過RESTful訪問Kylin 161

第17章 Kylin版本之間升級 179

17.1 從1.5.2升級到最新版本1.5.3 179

17.2 從1.5.1升級到1.5.2版本 180

17.3 從Kylin 1.5.2.1升級到Kylin 1.5.3實戰 181

17.4 補充內容 187

第18章大數據可視化實踐 189

18.1 可視化工具簡述 189

18.2 安裝Kylin ODBC驅動 190

18.3 通過Excel訪問Kylin 192

18.4 通過Power BI訪問Kylin 194

18.4.1 安裝配置Power BI 194

18.4.2 實戰操作 198

18.5 通過Tableau訪問Kylin 199

18.6 Kylin Mondrian Saiku 205

18.7 實戰演練：通過Saiku訪問Kylin 211

18.7.1 第一個Schema例子：myproject_pvuv_cube的演示 211

18.7.2 第二個Schema例子：kylin_sales_cube的演示 219

18.7.3 Saiku使用的一些問題 223

18.8 通過Apache Zepplin訪問Kylin 229

18.9 通過Kylin的“Insight”查詢 232

第19章使用Streaming Table 構建准實時Cube 236

第20章快速數據立方算法 251

20.1 快速數據立方算法概述 251

20.2 快速數據立方算法優點和缺點 253

20.3 獲取Fast Cubing算法的優勢 254

第四部分 Apache Kylin的擴展部分

第21章大數據智能分析平台KAP 257

21.1 大數據智能分析平台KAP概述 257

21.2 KAP的安裝部署 259

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 大數據分析神獸麒麟(Apache Kylin) 使用Kylin構建企業大數據分析平台的4種部署方式【轉】使用Apache Kylin搭建企業級開源大數據分析平台國人之光：大數據分析神器Apache Kylin Apache Spark大數據分析入門（一）企業構建大數據分析體系的4個層級如何打造高性能大數據分析平台大數據分析決策平台問題總結什么是大數據分析平台？由哪些部分組成？分布式大數據多維數據分析(olap)引擎kylin[轉]