作者:DataPipeline数见科技CTO 陈肃 导读:传统ETL方案让企业难以承受数据集成之重,基于Kafka Connect构建的新型实时数据集成平台被寄予厚望。 在4月21日的 ...
作者:DataPipeline数见科技CTO 陈肃 导读:传统ETL方案让企业难以承受数据集成之重,基于Kafka Connect构建的新型实时数据集成平台被寄予厚望。 在4月21日的 ...
环境准备 MySQL(开启binlog) Kafka(使用内嵌式debezium则不需要) debezium连接器 官网参考 https://debezium.io/docu ...
需求 查询一个小时之内的用户访问量(一个用户算一个) 难点:如果用户量很多,要想用Set等数据结构实现去重不太现实,随时都会OOM,这时就得利用布隆过滤器,先判断user是否存在,不存在则计数 ...
需求 将五分钟之内的订单信息和支付信息进行对账,对不上的发出警告 代码实现 ...
需求 对订单信息流进行监控,15分钟之内没有支付的发出警告 Flink CEP 实现 Flink 底层API实现 ...
需求 求每个小时内用户点击量的TOP3,每五分钟更新一次 bean: 利用底层API实现 利用Flink SQL实现 ...
文件名:gencdr.py 作用:在指定的时间里每秒向testcdr.txt文件中写N行记录,N为随机数。模拟access.log。 运行效果 文件名:ana ...