一、背景 每天上百亿的日志数据实时查询是个挑战,在架构设计上采用了Kafka + Flink + Clickhouse+Redash,实现海量数据的实时分析。计算层,我们开发了基于Flink ...
一、背景 每天上百亿的日志数据实时查询是个挑战,在架构设计上采用了Kafka + Flink + Clickhouse+Redash,实现海量数据的实时分析。计算层,我们开发了基于Flink ...
1,读取实现了,也是找的资料,核心就是实现了 HCatInputFormatHCatInputFormatBase 上面这两个类,底层也是 继承实现了 RichInputFormat: publ ...
接一下以一个示例配置来介绍一下如何以Flink连接HDFS 1. 依赖HDFS pom.xml 添加依赖 2. 配置 HDFS 将hdf ...
说明 读取kafka数据并且经过ETL后,通过JDBC存入clickhouse中 代码 定义POJO类: ...
问题导读:1、数据库、数据仓库如何理解?2、数据湖有什么用途?解决什么问题?3、数据仓库的加载链路如何实现?4、Hudi新一代数据湖项目有什么优势?在近期的 Apache Kylin × Apache ...
实体类: mongodb工具类: MongoDBSink FlinkTest pom文件 kafka_2.11-0.10.1.0zoo ...
前言 之前有文章 《从0到1学习Flink》—— Flink 写入数据到 Kafka 写过 Flink 将处理后的数据后发到 Kafka 消息队列中去,当然我们常用的消息队列可不止这一种,还 ...
一 什么是数据仓库 1.1 数据仓库概念 数据仓库,英文名称为Data Warehouse,可简写为DW或DWH。数据仓库,是为企业所有级别的决策制定过程 ...
第一章、flink实时数仓入门 一、依赖 二、Flink DataSet API编程指南 Flink最大的亮点是实时处理部分,Flink认为批处理是流处理的特殊情况,可以通过 ...
redis中的数据:需要实现SourceFunction接口,指定泛型<>,也就是获取redis里的数据,处理完后的数据输入的数据类型 这里我们需要的是(我们需要返回kv对的,就要考虑Ha ...