kylin入門到實戰：入門

本文轉載自查看原文 2017-04-12 17:23 1934

版權申明：轉載請注明出處。
文章來源：http://bigdataer.net/?p=292

排版亂？請移步原文獲得更好的閱讀體驗

1.概述

kylin是一款開源的分布式數據分析工具，基於hadoop之上的sql查詢接口，能支持超大規模的數據分析。響應時間在亞秒級別，其核心是預計算，計算結果存放在hbase中。

2.特性

可擴展超快OLAP引擎:
Kylin是為減少在Hadoop上百億規模數據查詢延遲而設計
Hadoop ANSI SQL 接口:
Kylin為Hadoop提供標准SQL支持大部分查詢功能
交互式查詢能力:
通過Kylin，用戶可以與Hadoop數據進行亞秒級交互，在同樣的數據集上提供比Hive更好的性能
多維立方體（MOLAP Cube）:
用戶能夠在Kylin里為百億以上數據集定義數據模型並構建立方體
與BI工具無縫整合:
Kylin提供與BI工具，如Tableau，的整合能力，即將提供對其他工具的整合
其他特性:
Job管理與監控
壓縮與編碼
增量更新
利用HBase Coprocessor
基於HyperLogLog的Dinstinc Count近似算法
友好的web界面以管理，監控和使用立方體
項目及立方體級別的訪問控制安全
支持LDAP

3.相關概念

3.1 Fact Table(事實表)：
事實表是指包含了大量不冗余數據的表，其列一般有兩種，分別為包含事實數據的列，包含維表foreign key的列。
3.2 Lookup table：包含了對事實表的某些列擴充說明的字段。
3.3 Dimenssion Table(維表)：
由fact table和lookup table 抽象出來的表，包含了多個相關的列，提供對數據不同維度的觀察，其中每列的值的數目稱為cardinatily。
3.4 model:用來定義用戶需要使用的hive表名，及所包含的維度列、度量列、partition列和date格式。
3.5 cube:用來定義某具體查詢時會涉及到的維度列及相互之間的關系（如層級關系）、度量列的具體類型（如max，min，sum）等,一個model下可存在多個cube。

更多文章請關注微信公眾號bigdataer

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 kylin從入門到實戰：實際案例 kylin入門到實戰：cube詳述【Kylin實戰】Hive復雜數據類型與視圖 Heroku實戰入門（二）簡單實戰【Kylin】銀河Kylin 4.0.2 VueJs入門項目實戰 apollo入門demo實戰（二） Envoy入門實戰部署 clickhouse入門到實戰及面試（三） MQTT實戰之MQTT入門