原文:触宝科技基于Apache Hudi的流批一体架构实践

. 前言 当前公司的大数据实时链路如下图,数据源是MySQL数据库,然后通过Binlog Query的方式消费或者直接客户端采集到Kafka,最终通过基于Spark Flink实现的批流一体计算引擎处理,最后输出到下游对应的存储。 . 模型特征架构的演进 . 第一代架构 广告业务发展初期,为了提升策略迭代效率,整理出一套通用的特征生产框架,该框架由三部分组成:特征统计 特征推送和特征获取模型训练 ...

2021-07-11 22:51 0 561 推荐指数:

查看详情

FLINK与一体

一体 二)数仓架构一体 三)数据湖的一体 四)存储的一体 ...

Mon Nov 22 17:31:00 CST 2021 0 7074
flink一体

同步。   flink一体横空处理,为大数据处理带来了一套新的解决方案。   今年双11,Flink一体 ...

Tue Jan 05 01:07:00 CST 2021 0 507
Apache Hudi在华米科技的应用-湖仓一体化改造

徐昱 Apache Hudi Contributor;华米高级大数据开发工程师 巨东东 华米大数据开发工程师 1. 应用背景及痛点介绍 华米科技是一家基于云的健康服务提供商,拥有全球领先的智能可穿戴技术。在华米科技,数据建设主要围绕两类数据:设备数据和APP数据,这些数据 ...

Mon Nov 15 05:44:00 CST 2021 0 223
基于 Flink CDC + Hudi 湖仓一体方案实践

一、Flink-CDC 2.0 Flink CDC Connectors 是 Apache Flink 的一个 source 端的连接器,目前 2.0 版本支持从 MySQL 以及 Postgres 两种数据源中获取数据,2.1 版本社区确定会支持 Oracle,MongoDB 数据源 ...

Tue Nov 16 23:43:00 CST 2021 0 828
Flink on Hive构建一体数仓

Flink使用HiveCatalog可以通过或者的方式来处理Hive中的表。这就意味着Flink既可以作为Hive的一个批处理引擎,也可以通过处理的方式来读写Hive中的表,从而为实时数仓的应用和一体的落地实践奠定了坚实的基础。本文将以Flink1.12为例,介绍Flink ...

Wed Jan 06 05:14:00 CST 2021 1 883
【产品动态】解读Dataphin一体的实时研发

​简介: Dataphin作为一款企业级智能数据构建与管理产品,具备全链路实时研发能力,从2019年开始就支撑可集团天猫双11的实时计算需求,文章将详细介绍Dataphin实时计算的能力。 背景 ...

Mon Aug 30 22:09:00 CST 2021 0 169
统一处理处理——Flink一体实现原理

实现批处理的技术许许多多,从各种关系型数据库的sql处理,到大数据领域的MapReduce,Hive,Spark等等。这些都是处理有限数据的经典方式。而Flink专注的是无限流处理,那么他是怎么做到批处理的呢? 无限流处理:输入数据没有尽头;数据处理从当前或者过去的某一个时间 点开 ...

Fri Sep 06 18:34:00 CST 2019 0 3265
 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM