flink流批一體

本文轉載自查看原文 2021-01-04 17:07 507 java

　　在大數據處理計算領域，有離線計算和實時計算兩種模式。一直以來，我們都是用mapreduce / hive / sparkSQL來處理離線場景，用 sparkStreaming / flink處理實時場景，但是這種lambda架構會導致一個問題：進行更改時要同時更改兩套代碼，進行同步。

　　flink流批一體橫空處理，為大數據處理帶來了一套新的解決方案。

　　今年雙11，Flink流批一體開始在阿里最核心的數據業務場景嶄露頭角，並扛住了40億/秒的實時計算峰值。

　　其實流批一體的技術里面最早提出於2015年，它的初衷是讓大數據開發人員能夠用同一套接口實現大數據的流計算和批計算，進而保證處理過程與結果的一致性。spark、flink都陸續提出了自己的解決方案。雖然spark是最早提出流批一體理念的計算引擎之一，但其本質還是用批來實現流，用的是微批次的思想，有秒級的延遲，而且無法正確處理時間語義（數據在分布式傳輸過程中順序發生改變，先生產的數據反而后到，導致計算不准確的一種現象），所以難以滿足復雜、大規模的實時計算場景，遲遲無法落地。而2019年阿里收購flink后，投入大量研發力量，同時公司也面臨離線和實時數據統計口徑不一致的問題，影響廣告、商務甚至是公司的運行決策，業務的迫切要求，技術力量的不斷加入，都促進了flink向流批一體的發展。

　　阿里搜索推薦業務、

　　flink 流批一體API、Runtime運行時、FlinkSQL

　　DataStream流計算， DataSet批處理，新引入 DAG API，流批一體調度器、可插拔shuffle插件等

　　flinkSQL學習成本低，上手快，能夠解決大部分場景，但不夠靈活，這時可以使用DataSteam API，但是DataStream對批處理支持不太好。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 FLINK與流批一體 Flink on Hive構建流批一體數倉統一批處理流處理——Flink批流一體實現原理項目實戰從 0 到 1 學習之Flink（28）Flink 1.11 新特性：流批一體的 Hive 數倉基於 Flink + Hive 構建流批一體准實時數倉（轉）深度解讀 Flink 1.11：流批一體 Hive 數倉基於 Flink SQL 構建流批一體的 ETL 數據集成帶你玩轉Flink流批一體分布式實時處理引擎 Flink Forward #Asia2020 流批一體及數倉資料整理 Flink 1.13，面向流批一體的運行時與 DataStream API 優化