实时数据摄入 我们采用Kafka Indexing Service作为实时摄入数据的方案。 准备工作 将数据实时灌入某个Kafka topic中 与批量导入数据类似:考虑清楚数据中哪一列可以作为时间列、哪些列可以作为维度列、哪些列可以作为指标列(尤其是指标的聚合函数,包括count ...
场景 k 在线教育公司的业务场景中,有一些业务场景需要实时统计和分析,如分析在线上课老师数量 学生数量,实时销售额,课堂崩溃率等,需要实时反应上课的质量问题,以便于对整个公司的业务情况有大致的了解。 方案对比 对比了很多解决方案,如下几种,列出来供参考。 方案 实时入库 SQL支持度 Spark CarbonData 支持 Spark SQL语法丰富 Kylin 不支持 支持join Flink ...
2019-08-09 18:09 0 3687 推荐指数:
实时数据摄入 我们采用Kafka Indexing Service作为实时摄入数据的方案。 准备工作 将数据实时灌入某个Kafka topic中 与批量导入数据类似:考虑清楚数据中哪一列可以作为时间列、哪些列可以作为维度列、哪些列可以作为指标列(尤其是指标的聚合函数,包括count ...
文章目录 前言 Druid介绍 主要特性 基础概念 数据格式 数据摄入 数据存储 数据查询 查询类型 架构 运维 OLAP方案对比 使用场景 使用建议 参考 近期主题 前言 项目早期、数据(报表分析)的生产、存储和获取业务,MySQL基本上可以满足需要 ...
数据查询 Druid的聚合查询主要有三种形式: Timeseries TopN GroupBy 一般而言,OLAP系统最核心的能力是GroupBy查询,Druid也不例外。 但是GroupBy查询资源消耗较多,TopN和Timeseries作为GroupBy的有益补充,能够 ...
介绍 我是NDPmedia公司的大数据OLAP的资深高级工程师, 专注于OLAP领域, 现将一个成熟的可靠的高性能的海量实时OLAP数据仓库介绍给大家: druid.io NDPmedia在2014年3月就开始使用, 见链接: http://blog.csdn.net/chenyi8888 ...
目录: 一. 实时计算初期 二. 实时数仓建设 三. Lambda架构的实时数仓 四. Kappa架构的实时数仓 五. 流批结合的实时数仓 实时计算初期 虽然实时计算在最近几年才火起来,但是在早期也有部分公司有实时计算的需求,但是数据量比较少,所以在实时方面形成不了完整的体系,基本所 ...