原文:觸寶科技基於Apache Hudi的流批一體架構實踐

. 前言 當前公司的大數據實時鏈路如下圖,數據源是MySQL數據庫,然后通過Binlog Query的方式消費或者直接客戶端采集到Kafka,最終通過基於Spark Flink實現的批流一體計算引擎處理,最后輸出到下游對應的存儲。 . 模型特征架構的演進 . 第一代架構 廣告業務發展初期,為了提升策略迭代效率,整理出一套通用的特征生產框架,該框架由三部分組成:特征統計 特征推送和特征獲取模型訓練 ...

2021-07-11 22:51 0 561 推薦指數:

查看詳情

FLINK與一體

一體 二)數倉架構一體 三)數據湖的一體 四)存儲的一體 ...

Mon Nov 22 17:31:00 CST 2021 0 7074
flink一體

同步。   flink一體橫空處理,為大數據處理帶來了一套新的解決方案。   今年雙11,Flink一體 ...

Tue Jan 05 01:07:00 CST 2021 0 507
Apache Hudi在華米科技的應用-湖倉一體化改造

徐昱 Apache Hudi Contributor;華米高級大數據開發工程師 巨東東 華米大數據開發工程師 1. 應用背景及痛點介紹 華米科技是一家基於雲的健康服務提供商,擁有全球領先的智能可穿戴技術。在華米科技,數據建設主要圍繞兩類數據:設備數據和APP數據,這些數據 ...

Mon Nov 15 05:44:00 CST 2021 0 223
基於 Flink CDC + Hudi 湖倉一體方案實踐

一、Flink-CDC 2.0 Flink CDC Connectors 是 Apache Flink 的一個 source 端的連接器,目前 2.0 版本支持從 MySQL 以及 Postgres 兩種數據源中獲取數據,2.1 版本社區確定會支持 Oracle,MongoDB 數據源 ...

Tue Nov 16 23:43:00 CST 2021 0 828
Flink on Hive構建一體數倉

Flink使用HiveCatalog可以通過或者的方式來處理Hive中的表。這就意味着Flink既可以作為Hive的一個批處理引擎,也可以通過處理的方式來讀寫Hive中的表,從而為實時數倉的應用和一體的落地實踐奠定了堅實的基礎。本文將以Flink1.12為例,介紹Flink ...

Wed Jan 06 05:14:00 CST 2021 1 883
【產品動態】解讀Dataphin一體的實時研發

​簡介: Dataphin作為一款企業級智能數據構建與管理產品,具備全鏈路實時研發能力,從2019年開始就支撐可集團天貓雙11的實時計算需求,文章將詳細介紹Dataphin實時計算的能力。 背景 ...

Mon Aug 30 22:09:00 CST 2021 0 169
統一處理處理——Flink一體實現原理

實現批處理的技術許許多多,從各種關系型數據庫的sql處理,到大數據領域的MapReduce,Hive,Spark等等。這些都是處理有限數據的經典方式。而Flink專注的是無限流處理,那么他是怎么做到批處理的呢? 無限流處理:輸入數據沒有盡頭;數據處理從當前或者過去的某一個時間 點開 ...

Fri Sep 06 18:34:00 CST 2019 0 3265
 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM