# Flink SQL 寫 hudi 最近在做一個數據湖項目,基於 Hudi 的湖倉一體項目,計算引擎是 Flink + Spark 之前稍稍研究了一下數據湖的三個主要技術組件 IceBerg,以為可能會用,在網上看資料的時候,同樣也發現,IceBerg 對 Flink 比較親和,Hudi ...
Kudu 是現在比較火的一款存儲引擎,集HDFS的順序讀和HBase的隨機讀於一身,非常適合物流網場景,剛剛到達的數據就馬上要被終端用戶使用訪問到,未來還要做大規模的數據分析。 kudu 適合的場景 以下內容來自網絡 : 最近感覺在批量讀 hbase 上遇到了瓶頸,急需尋找新的解決方案,這是時候看到了 kudu,看了介紹,感覺非常適合我們的場景:物流網場景,設備上傳的數據,需要實時查詢,又需要對設 ...
2021-04-16 17:41 1 1228 推薦指數:
# Flink SQL 寫 hudi 最近在做一個數據湖項目,基於 Hudi 的湖倉一體項目,計算引擎是 Flink + Spark 之前稍稍研究了一下數據湖的三個主要技術組件 IceBerg,以為可能會用,在網上看資料的時候,同樣也發現,IceBerg 對 Flink 比較親和,Hudi ...
官網對應頁面:https://ci.apache.org/projects/flink/flink-docs-release-1.10/dev/table/connect.html#elasticsearch-connector Flink SQL ElasticSearch connector ...
Hbase 也是我們很常用的數據存儲組件,所以提前嘗試下用SQL 寫Hbase,中間也遇到一些坑,跟大家分享一下。 官網地址:https://ci.apache.org/projects/flink/flink-docs-release-1.10/dev/table ...
數倉場景下,經常有兩個表 Join 后往一個寬表寫數據。比如:埋點數據中只包含 user_id,但是下游計算的需要使用用戶的其他屬性,就需要將埋點數據和用戶數據做關聯。 實時場景,需要做流表 Join,用埋點數據的 user_id 去全量用戶表中取用戶屬性。 如果兩部分數據產生的順序不確定 ...
Flink 1.11 版本對SQL的優化是很多的,其中最重要的一點就是 hive 功能的完善,不再只是作為持久化的 Catalog,而是可以用原生的 Flink SQL 流式的寫數據到入 hive中 本文使用官網 “Streaming Writing” 案例 (https ...
寫入操作是指需進行插入、更新或刪除操作的一組行。需要注意的事項是Kudu強制執行主關鍵字的唯一性,主關鍵字是可以更改行的唯一標識符。為了強制執行此約束條件,Kudu必須以不同的方式處理插入和更新操作,並且這會影響tablet服務器如何處理寫入 Kudu中的每個tablet包含預寫式 ...
接之前的:Flink 1.10 SQL 寫HBase 有朋友看了之前的 sql 寫 Hbase 的博客,自己試了寫,可能沒有得到預期的結果 之前在搗騰的時候,也花了不少時間,這里大概寫下遇到的兩個問題 1、hbase 表參數問題 我們有多套hbase 集群,之前 ...
Kudu White Paper http://www.cloudera.com/documentation/betas/kudu/0-5-0/topics/kudu_resources.html http://getkudu.io/overview.html Kudu ...