【文章推薦】觸寶科技基於Apache Hudi的流批一體架構實踐

原文：觸寶科技基於Apache Hudi的流批一體架構實踐

. 前言當前公司的大數據實時鏈路如下圖，數據源是MySQL數據庫，然后通過Binlog Query的方式消費或者直接客戶端采集到Kafka，最終通過基於Spark Flink實現的批流一體計算引擎處理，最后輸出到下游對應的存儲。 . 模型特征架構的演進 . 第一代架構廣告業務發展初期，為了提升策略迭代效率，整理出一套通用的特征生產框架，該框架由三部分組成：特征統計特征推送和特征獲取模型訓練 ...

2021-07-11 22:51 0 561 推薦指數：

查看詳情

FLINK與流批一體

批一體二）數倉架構的流批一體三）數據湖的流批一體四）存儲的流批一體 ...

flink流批一體

同步。　　flink流批一體橫空處理，為大數據處理帶來了一套新的解決方案。　　今年雙11，Flink流批一體 ...

Apache Hudi在華米科技的應用-湖倉一體化改造

徐昱 Apache Hudi Contributor；華米高級大數據開發工程師巨東東華米大數據開發工程師 1. 應用背景及痛點介紹華米科技是一家基於雲的健康服務提供商，擁有全球領先的智能可穿戴技術。在華米科技，數據建設主要圍繞兩類數據：設備數據和APP數據，這些數據 ...

Apache Flink 1.12.0 正式發布，DataSet API 將被棄用，真正的流批一體

Apache Flink 1.12.0 正式發布 Apache Flink 社區很榮幸地宣布 Flink 1.12.0 版本正式發布！近 300 位貢獻者參與了 Flink 1.12.0 的開發，提交了超過 1000 多個修復或優化。這些修改極大地提高了 Flink 的可用性，並且簡化（且統一 ...

基於 Flink CDC + Hudi 湖倉一體方案實踐

一、Flink-CDC 2.0 Flink CDC Connectors 是 Apache Flink 的一個 source 端的連接器，目前 2.0 版本支持從 MySQL 以及 Postgres 兩種數據源中獲取數據，2.1 版本社區確定會支持 Oracle，MongoDB 數據源 ...

Flink on Hive構建流批一體數倉

Flink使用HiveCatalog可以通過批或者流的方式來處理Hive中的表。這就意味着Flink既可以作為Hive的一個批處理引擎，也可以通過流處理的方式來讀寫Hive中的表，從而為實時數倉的應用和流批一體的落地實踐奠定了堅實的基礎。本文將以Flink1.12為例，介紹Flink ...

【產品動態】解讀Dataphin流批一體的實時研發

簡介： Dataphin作為一款企業級智能數據構建與管理產品，具備全鏈路實時研發能力，從2019年開始就支撐可集團天貓雙11的實時計算需求，文章將詳細介紹Dataphin實時計算的能力。背景 ...

統一批處理流處理——Flink批流一體實現原理

實現批處理的技術許許多多，從各種關系型數據庫的sql處理，到大數據領域的MapReduce，Hive，Spark等等。這些都是處理有限數據流的經典方式。而Flink專注的是無限流處理，那么他是怎么做到批處理的呢？無限流處理：輸入數據沒有盡頭；數據處理從當前或者過去的某一個時間點開 ...

原文：觸寶科技基於Apache Hudi的流批一體架構實踐

相關推薦

相關標簽