當下大數據體系的4個熱點，4個趨勢和3個問題[轉]

本文轉載自查看原文 2021-09-18 18:06 191 大數據

如今，大數據技術已進入“后紅海”時代，成了“水電煤”一樣可以普惠人人的技術。同時，新領域仍在不斷演進迭代。

本文的上篇 “Snowflake如日中天是否代表Hadoop已死？大數據體系到底是什么？”，闡述了后紅海時代下大數據體系的演進熱點是什么，以及大數據體系3個子領域的技術解讀，包括多層智能化演進的分布式存儲系統、統一框架和算法多元化發展的分布式調度系統，和統一化發展的元數據服務。

本文作為下篇，繼續對計算引擎、框架與接入、數據開發與治理、智能化、安全與隱私保護、運維6個子領域做技術解讀，概述各領域的演進歷史、背后驅動力、以及發展方向，並希望和大家一起探討大數據體系未來演進的技術趨勢，以及仍待探索的未解問題。

大數據體系的領域架構
在Shared-Everything架構角度下，大數據體系子領域划分成9個領域：

注：這張圖上的前3個子領域：分布式存儲、分布式調度、元數據服務已在上篇完成，本文直接從第4個子領域開始分享。

4. 多種計算引擎並存
計算層是整個大數據計算生態的核心，是數據到價值轉換的關鍵。大數據場景中有各類計算形態，如批、流、交互式、多模、圖、搜索、等多種計算模式。

大數據領域發展了20年，在“后紅海”時代，主流計算模式已經基本固定，形成批處理、流處理、交互式、機器學習四個核心方向，以及一些小眾/專門場景的計算模式。在開源社區領域，經過百舸爭流式的競爭和沉淀，也基本形成了主流的社區形態。

除了機器學習，前三個方向有一定的overlapping，例如Spark同時支持流、批和部分交互能力。但最終形成廣泛影響力的引擎，都是在某一方向建立顯著的競爭門檻。

整體看，計算引擎的發展將會在存儲計算分離架構基礎上，以一套數據支持多種計算模式：

（1）存儲計算分離，以及隨后的1+N架構（即一套數據之上支持多種計算模式）

（2）批處理——是大數據處理的基礎形態，以Bulk Synchronous Parallelism（BSP）為基礎原理，從Map-Reduce（MR）模式開始發展起來，所謂“批”指的就是Bulk（也譯作Batch）。Map-Reduce的運算框架逐步發展成Direct Acyclic Graph（DAG），上層語言也開始從MR的Java代碼向SQL轉型，第一版本集大成的批處理開源系統是Hive+Tez。因為Hive2.0是嚴格BSP模式，每次數據交互均需要落盤，犧牲了延遲和性能。Spark抓住內存增長的趨勢，推出基於ResilientDistributed Dataset(RDD)的運算框架，展開與Hive的競爭。當前在開源領域，Hive/Spark是主流引擎，隨Spark穩定性和內存控制逐步完善，Spark逐步占領開源市場。目前批處理仍然是最主流的計算形態，整體的優化方向是更高吞吐/更低成本。

最近兩年，隨近實時方向的興起（以開源ApacheDelta/Hudi為代表），批處理數據從接入到計算的延遲得的顯著的降低，給用戶提供了一種成本/延遲的另一個平衡點。

（3）交互式分析——通常是面向分析場景（人驅動，中小規模輸入數據/小規模輸出數據），在中小規模cook好的數據上（通常是批處理之后的數據），基於更快的存儲、更多的內存（bufferpool）、更實時的數據更新（通常是基於LSMTree的方案），也采用更多的OLAP優化技術（例如PlanCache）。優化方向更偏延遲（而非成本和吞吐率）。技術棧發展上，有兩個脈絡，一個是從分布式數據庫角度發展起來，采用MPP架構，例如開源領域的Apache Impala和Clickhouse，自研領域的AWS Redshift。另一個是更偏雲原生和大數據的架構，例如Apache Presto。

批處理和交互分析，有天然的統一需求，因此很多自研的分析引擎也包括一定的批處理能力，形成一體化，例如當前如日中天的SnowFlake。而Google BigQuery采用附加交互引擎（內置一個更快的BIEngine）的方式形成一體化。從細節看，交互分析的引擎優化更偏數據庫類優化方向，更強調用好Memory和Index，Plan相對簡單，對QueryOptimizer要求低，不需要支持豐富的UDF，也不需要做Query中間的failover。批處理引擎更面向吞吐量（Throughput）優化，核心是更優化的Plan以及盡量降低IO，同時對failover要求高（因此部分數據要落盤）。這也是為什么BigQuery選擇雙引擎的原因。

（4）流處理——采用ContinuousProcessing的計算模式，通過本地狀態保存（State）和CheckPoint（CP，用來做failover），形成分布式增量計算引擎。這種計算模式與BSP架構不同。主打的場景是實時大屏，監控報警以及最近流行的實時機器學習。系統面向低延遲優化，處理的是流式寫入的數據，一致性模型（Exact-OnceVS Atleast-Once）、LateEvent處理方式、以及Window函數支持是不同流計算引擎設計的取舍。開源領域Spark Streaming、Apex、Heron和Flink經過競爭，Flink因具備完整Exact-Once語義保證和完善的LateEvent處理能力，最終獲得社區廣泛的關注。

（5）機器學習(ML)/深度學習(DL)——以統計為基礎理論的傳統機器學習有豐富的生態，包括Python系、Matlab等等。大數據領域SparkMLib以一套數據多種計算的優勢，一度成為大數據傳統算法的主流。隨AlphaGo引爆深度學習領域，TensorFlow和Pytorch成為業界標桿。目前DL領域仍然處於紅海期，模型並行化以及超大模型是近期的熱點。特別的，隨DL興起，Python作為標准語言開始流行，Spark推出Koalas用於連接大數據與AI開發，Python有取代Java成為命令式編程類（Imperitive）大數據開發語言的潛力（Decleritive類編程標准一直是SQL）。

（6）其他小眾計算模式——因滿足不同細分場景，還有包括圖計算，文本檢索等引擎。圖領域細分成三個子場景：圖計算、圖分析和圖學習。分布式圖分析場景目前仍未有完善的方案，圖語言也在發展期，未形成統一標准。文本檢索領域，主要基於倒排索引技術，開源生態ElasticSearch成為生態主流。限於篇幅，這部分不再做更細節的介紹。

展望未來，我們看到可能的發展方向/趨勢主要有：

近實時化成為主流：近實時化方案，是在分鍾級的延遲上做到數據的一致性，幾乎不用依賴大量內存的BTree系統和常駐的服務，將成本降低到幾乎和離線一致，在延遲和成本間找到一個新的平衡，會逐步取代部分離線的作業。

IoT領域興起：隨設備的智能化和5/6G網絡興起，面向IoT的分析會逐漸火熱。計算形態可能會發生變化，從雲為中心演進到雲邊端一體。

大數據平台/引擎整體雲原生化：新興的引擎均基於雲的架構重新設計，充分利用雲的優勢，降低復雜度的同時提供更多價值。隨雲原生化，Shared-Everything架構成為未來的演進趨勢。

Learned based優化：機器學習技術會充分融入大數據系統（甚至任何系統）的設計，優化器、調度系統、存儲格式、Index/MV設計等多個領域均會大量使用AI的技術來做優化。例如Cost based Optimization中的基於Statistics的Cost推導，會大量被Learn based Statistics取代。

5.框架與接入層
接入層和管控是一個子系統，主要用於服務背后的主系統。從架構和功能角度上看，與大多數服務的接入層差異不大，也不存在明確的演進和代差，因此簡要概述。唯一值得一提的是，隨越來越多的大數據平台走向“托管化”或者說“服務化”，框架管控層越來越厚，大多數企業級能力增強來自管控部分。例如，計算引擎是數倉類產品的核心，但最終用戶需要的遠不止引擎本身而是好用的數據倉庫產品，就像發動機是汽車的核心部件，但用戶所需的是完整、好開的汽車。

接入和管控層，抽象下來，主要功能包括：

a. 前端API接入：是系統對外的接口，通常提供HTTP協議接入，並具有認證、流控能力。部分系統提供Web接入能力。

b. 服務層：包括更多的業務邏輯，例如用戶/租戶管理，提供服務層面的訪問控制，以及服務級別的流控。對於引擎來說，服務層很可能包括編譯與作業分發能力，異常作業的檢測與隔離等等。有些系統為了簡化將API接入與服務層合二為一個服務進程。

設計考慮：

a.服務於背后的主系統，功能隨后台變化而變化，並沒有“一定之規”。

b.管控層直接決定系統的可用性，因此也需要完善的容災能力，無狀態的服務組件通常依托部署系統實現容災，對於有狀態服務，通常將狀態存儲在元數據系統或者底層存儲系統中。

c.很多獨立引擎，特別是開源類，接入和管控層通常比較簡單。對於企業級服務來說，很多額外的功能都在本服務擴展，也體現企業級服務的價值。例如：監控/運維能力、審計日志、計量計費、對計算系統熱切換的控制等。甚至包括自動化作業調優等高級功能（例如SparkCruise，來自微軟Azure托管版的基於歷史信息的自動作業調優子系統）。

d.當用戶選用多個系統組合搭建一套大數據平台，不同系統都會有自己的管控層，造成服務的冗余和各系統的割裂。因此很多雲平台提供商，會致力於抽象統一規范和公共子模塊，例如統一認證協議/服務（Kerberos等）、統一權限管理，TerraformAPI標准等。

展望未來，我們看到可能的發展方向/趨勢主要有：

托管化 - 框架與接入層是企業級能力增強的關鍵一層，隨托管化成為大趨勢，這一層會有大量的企業級能力加入，會逐步成為關鍵層。

6. 數據開發與治理平台
隨着大數據技術在眾多領域的廣泛應用，大量數據源需要接入大數據平台，多種數據處理引擎和開發語言被各類技術/非技術人員人員使用，復雜業務催生了規模龐大、邏輯復雜的工作流程，數據成為業務的生命線需要重點保護，數據作為業務的原動力需要更加方便快捷的被分析和應用。

讓大數據計算平台真正能夠服務於業務，還需要一系列數據研發和數據治理利器，以幫助數據工作者低成本和高效地獲取數據洞察，實現業務價值：

數據集成：支持關系型數據庫、大型數倉、NoSQL數據庫、非結構化數據、消息隊列等數據源之間的數據同步，包含批量數據同步、實時數據同步、整庫數據遷移等，解決雲上、跨雲、跨地域以及本地IDC機房等復雜網絡環境之間的數據同步問題。

元數據服務：支持不同數據源的元數據發現與元數據歸集，並構建數據目錄和數據血緣服務，同時為上層數據開發與數據治理提供元數據服務。

數據開發：提供在線數據開發IDE，支持多種計算存儲引擎，提供批計算、實時計算、交互式分析、以及機器學習等一體化數據開發服務，為各種技術/非技術人員提供高效極致的ETL/ELT研發體驗。

調度系統：支持大規模、高並發、高穩定性的細粒度周期性任務調度，支持流處理、批處理與AI一體化數據任務編排，保障數據生產的時效性、穩定性。

數據治理：提供數據資產管理、數據質量控制、數據安全管理、監控告警、數據標准、成本優化等服務，保障數據倉庫能夠規范、健康、合規和可持續發展。

數據服務：提供快速將數據表生成數據API服務的能力，連接數據倉庫與數據應用的“最后一公里”，實現靈活可控的數據共享交換服務。

展望未來，我們看到可能的發展方向/趨勢主要有：

低代碼開發與分析：數據的獲取、分析與應用將逐步從專業開發人員覆蓋到更多的分析師和業務人員，因此數據開發與分析工具將逐步從專業代碼開發工具向低代碼化、可視化工具演進。甚至是基於NLP和知識圖譜技術，實現通過自然語言執行數據查詢。低代碼化開發與分析工具讓非技術人員也能輕松獲取數據洞察，實現數據價值的普惠，實現“人人都是分析師”。

智能編程：在傳統的ETL開發過程中，存在着大量重復的或相似的編碼工作，未來將在AI的加持下，通過語義分析、數據血緣探測、輸入意圖預測等技術，以智能編程助手的形式幫助開發人員實現更高效的編程。

開發即治理：過去我們大多習慣於先開發后治理，最終則讓數據治理成為了負擔。隨着數據規模的不斷增長、數據安全與隱私保護越來越受關注、數據業務化的持續發展，將不再允許數據治理僅僅是事后行為，數據治理將會融合到覆蓋事前、事中和事后的大數據生產與應用的全鏈路中，數據開發與治理將協同並進。

據生產與應用的全鏈路中，數據開發與治理將協同並進。
1
7. 智能化
隨着大數據平台及其所承載業務的發展，我們也面臨着新的挑戰：

10PB到EB級數據和百萬級別作業規模，已經成為主流，海量數據和作業靠人很難管理。傳統的DBA模式或數據中台團隊不再勝任。

多種數據融在一起，人無法在海量規模上理解數據的所有價值。

大數據系統經過多年發展，如果需要實現“躍遷”式的進步，需要體系結構層面的改造。

因此AI for System的概念興起，基於AI的能力做系統的優化，在數倉領域我們可以稱之為自動數倉（AutoData Warehouse）。數據湖領域也可以有更多的自動化，但因為數倉方向的數據管理/調優能力發展更早，這個領域更領先。下圖是一個基本的自動數倉能力分類。

自動化本身並不太可衡量，我們定義了一個“自動數倉”的能力分級，類比“自動駕駛”。分為L1-L5。

L1級：運維能力白屏化和工具化。目前絕大多數系統都可以做到這個層次。

L2級：更好的系統托管化，底層系統對用戶透明。例如小文件Merge自動化、軟硬件升級透明、自動loadbalance等。很多全托管系統都可以做到這個層次（例如Snowflake、MaxCompute）。

L3級：中台能力的自動化，輔助數據關聯與理解，建模與調優。包括數據血緣，相似度，冗余度，使用情況與自動評分。輔助標簽系統，輔助中台建設。市面上的很多數據中台產品聚焦在這一層。

L4級：系統具備自學習能力。基於歷史信息的性能調優（自動Parallelism，自動冷熱數據分層等等），資源與優先級的動態調配，自適應的監控和報警能力，自動數據異常識別。目前大多數系統的能力邊界在此，有巨大的發揮空間。

L5級：自動化建模。包含更高階的數據理解，能夠自動發現數據的內在關聯與冗余度，根據數據訪問情況，自動維護數倉體系。

最近1-2年，自動化資源管理和自動化作業調優成為熱點，有非常多的研究性論文。幾個核心元產品也推出新能力，例如AWSRedshift的自動workload mgmt、自動key sorting和table sorting，微軟Azure的SparkCruise（@VLDB2021）用來抽象公共子查詢做MaterializedView。

智能化作為大數據體系的發展趨勢之一，上述內容即為我們對這個子領域的未來展望。

8. 安全與隱私保護
隨着大數據的發展，數據在多方數據融合場景下能發揮更大的價值。然而在這種場景下用戶的隱私保護以及數據的合規問題成為了嚴重的問題。問題的本質是數據的開放性與使用安全性的平衡。安全能力，包括數據安全/隱私保護能力，是大數據體系中的重要能力基線之一。

信息的可用性、信息的完整性、以及信息的保密性是信息安全的三個基本要素。我們將企業級大數據中台要面臨的安全風險, 根據其所涉及的系統及技術領域的不同,分為三個層次。

最基礎的層次是數據中心的物理安全與網絡安全，數據中心是構建大數據中台的基礎，數據中心自身安全性和網絡接入安全性直接影響到企業大數據中台的可用性。主要包括數據中心保障設施、數據中心安全管控、數據中心的網絡安全等幾個維度的建設。當雲架構成為主流，物理安全方面通常由雲廠商承擔。

在這之上是企業大數據平台的系統安全，由大數據平台內部的多個安全子系統構成，如訪問控制、應用程序隔離、平台可信、風控和審計等子系統。這些子系統共同保障大數據平台的完整性。

最上層是數據應用安全，貼近於用戶的應用場景。通過在這一層提供豐富多樣的數據安全產品，大數據中台為用戶應用數據的各類業務場景提供切實可靠的數據安全能力。

下圖給出了一個基於數據生命周期的數據安全管理體系。里面有非常多的子領域，比較存儲加密、敏感數據發現和保護、數字水印等等。
展望未來，我們看到可能的發展方向/趨勢主要有：

數據安全共享 — 隨數據被認知為資產，數據變現成為一個熱門話題，它背后的技術：數據安全共享和多方安全計算也成為熱點方向。總體看，數據變現（也稱為數據安全共享），有兩種典型場景：一方數據對外售賣，多方數據交互計算。

域內多租的方案，通常需要細粒度的接入/訪問控制、計算隔離、下載保護等技術配合。主流數倉產品均提供這類方案（比如Snowflake的DataSharing）。另外，這個領域的一個研究方向是基於差分隱私（DifferentialPrivacy）加密的密態計算（例如 DPSAaS@Sigmod2019）。

多方數據交互計算方案，通常基於聯邦學習技術（FederatedLearning）。

9. 運維
運維是伴隨着任何一家公司的產品，在整個產品生命周期中一直是存在的。運維負責公司產品業務的正常運轉，處理緊急故障響應，保障業務連續性，產品可用性改進，性能&效率優化，變更管理，監控，容量規划與管理等相關工作：這些是運維核心的定義所在。

隨着大數據行業的發展，運維走過了傳統Ops到專業化、工具平台化、再到雲化數據化、甚至是到了智能化的階段，從雲計算SaaS/PaaS/IaaS三層的演進趨勢我們可以看到，IaaS與PaaS之間的分界線越來越往上走，基礎設施越來越統一，雲化虛擬化的趨勢抹平了基礎設施層；同時SaaS與PaaS層的分界線也沒有那么清晰，在SaaS層快速構築應用的成本越來越低，越來越多的SaaS層能力抽象后下沉到PaaS層，拿來即用，也可以說是PaaS層在往上層演進。結合雲計算SPI三層的發展，我們也可以將運維粗略划分為面向SaaS層的應用型運維、面向PaaS和IaaS層的平台型運維。

大數據運維業務圍繞穩定性（質量）、成本及效率主要關注如下：

針對日常業務穩定性可以分為日常事件管理、問題管理、變更管理及發布管理的標准化ITIL流程；

針對成本管理包含了從資源預算、資源采購、預算執行、財務賬單、過保替換等圍繞資源生命周期管理的相關事項；

針對效率包含了如何開發一體化的運維平台以高效支撐業務監控、服務管理、系統管理、應急/安全管理等。

大數據體系發展至今，服務器規模已發展到數萬、數十萬、甚至百萬台規模。隨着基礎設施規模的發展，運維系統也經歷了一個從人工、到平台化、再到智能化的自然的演進過程，運維的演進需要能支撐起大數據基礎設施的高復雜、高安全、高可靠、高效率要求。

展望未來，我們看到可能的發展方向/趨勢主要有：

產品化：運維的產品化，本周上是指讓各類運維動作的更標准，更可控。產品化是把對本身服務客戶的產品的運維需求、和運維產品本身的需求、集成到產品功能上，並迭代傳承。同時通過這些標准化的動作，逐步把底層的一些運維數據統一起來。
- 數據化：隨着產品規模的擴大以及系統的復雜多產品依賴，在整個過程中會產生大量的系統數據，隨之數據化能力會凸顯的非常重要。數據的收集存儲，計算處理，運維數倉建設，數據分層，實時性，運營分析等相關數據化能力會逐步成為必須基本能力。重點需要關注運維數據的工程，集成，安全和質量。

智能化：在超大業務規模下，逐步按以前的傳統的運維操作方式不能更高效的支持好業務，一個例子對線上復雜問題的快速定位和修復。但這類人腦的規則級隨着復雜度增長以及產品周期發展不會是一個線性提升，這個時候是需要通過一些智能化算法能力去幫助處理這些海量數據，從中找到一定的結果規則，輔助加快專業人士的判斷。但這塊的技術挑戰非常巨大，同時對資源也有一定的消耗。但這個方向是應該持續發展。

大數據體系未來演進的4大技術趨勢
趨勢1：近實時架構興起

在離線batch計算和純流式實時計算之間，以開源Apache Delta/Hudi為代表的近實時架構成為熱點。近實時架構避免了流計算龐大的狀態存儲與管理，在成本和延遲上找到了另一個平衡。隨近實時架構的形成，計算架構最終完成從離線到實時全頻譜支持。

趨勢2：數據共享與隱私保護成為熱點

數據成為資產，開始具備可變現和可交易的能力。可保護隱私的數據交換/共享能力成為強勁的需求。基於DifferentialPrivacy的數據編碼交易，以及基於Federated Learning的多方面安全計算是該領域的熱點技術。

趨勢3：IoT成為新熱點

目前人的行為數據（日志）是大數據計算的主要來源，超過80%的數據都來源於行為日志（例如瀏覽、點擊）。隨5G+智能化設備的興起，設備日志會成為更大的數據源增長點，面向海量低價值設備數據的處理和優化，需要得到更多的關注。

趨勢4：AI for System

AI for System，即上文中提到的大數據自動駕駛。AI作為工具，成為優化的常用手段。在大數據領域，隨數據量/系統復雜度的增長，DBA模式已經不再試用。利用算法優化系統成為主流方向，大數據的“自動駕駛”會越來越自動。

大數據體系內待探索的3個疑問
大數據技術收斂，並進入普惠和業務大規模應用的階段，滲透到各行各業。超大規模數據計算和基於數據的智能決策，已經是企業業務數據化運營的重要基礎。不過，在后紅海時代，大數據體系發展有3個疑問值得我們關注：

疑問1：引擎發展呈現跨界的趨勢，但最終是否能夠誕生一套引擎滿足多樣的計算需求，並兼顧通用性和效率？

隨大數據系統整體架構的穩定，各種引擎的發展逐漸進入收斂期，批計算、流計算、交互分析、機器學習收斂成為四個核心計算模式，每個模式均有主線開源引擎成為事實標准。

過去3年沒有再誕生主流的開源計算引擎（每個模式中，引擎的發展脈絡詳見第二章節）。同時，引擎邊界開始變得模糊，HTAP等Hybrid模式成為探索的新趨勢，計算模式是否進一步收斂，收斂的終態會是什么樣子，是個熱點話題。

疑問2：關系模型之外，是否會發展出其他主流計算范式？

大數據領域整體還是以二維關系表達和計算為基礎（RelationalDB的理論基礎），是否有新的計算范式在數據庫領域也持續討論了多年，盡管有包括圖計算在內的其他計算范式，但過去的40年，關系運算持續成為主流。

其中核心原因是二維關系表達更貼近人的理解能力，或者說高維表達和處理很難被人理解和處理。但關系表達有顯著的短板，它無法處理半結構化和非結構化的數據（比如音視圖類的數據）。

近幾年興起的深度學習技術，帶來了一種全新的處理方式，海量正交化的高維特征作為輸入，由深度神經網絡理解數據，以模型作為產出的引擎計算出結果。這種方式避免人腦對數據處理的局限性，可以在更高維度更復雜數據上做處理，給未來提供了一種新的處理方式的可能性。

但深度學習核心仍然在尋找“最好”的co-relation，可解釋性，推導邏輯以及對結果正確性保證都不夠好。

疑問3：基於開源自建與直接選購企業級產品，誰更能獲得用戶的認可？

開源軟件是大數據發展的關鍵推手，助力大數據系統的普及化。但面臨如下挑戰：開源系統的軟件交付模式，也給很多客戶帶來高維護成本。

以一個典型的腰部互聯網企業為例，一個100台規模的大數據平台硬件投入大約200萬/年，同時需要維持一個3-5人的研發/運維團隊，年成本200-300萬/年。綜合TCO高達450萬/年。

這也是為什么像Snowflake這樣的自研企業級產品流行的原因，大多數不具備深度研發能力的公司，願意為更豐富的企業級能力和更低的綜合TCO買單；大數據系統開發進入深水區，投資巨大，需要高商業利潤才能支持。

事實上，雲計算四巨頭均有自己的自研產品提升利潤率的同時也提升差異化競爭力（例如AWSRedshift，Google BigQuery，阿里雲飛天MaxCompute）。

而每個開源社區背后無一例外均有商業公司推出企業版（例如Databricks之於Spark，VVP之於Flink、Elastic之於Elasticsearch）。

因此，長期看，大多數用戶（特別是中小型）進入“技術冷靜期”后，開始審慎考慮綜合投資收益，考慮上雲、以及直接采購企業級產品+服務（放棄自建平台）。

本文試從系統架構的角度，就大數據架構熱點，每條技術線的發展脈絡，以及技術趨勢和未解問題等方面做了一個概述。特別的，大數據領域仍然處於發展期，部分技術收斂，但新方向和新領域層出不窮。本文內容和個人經歷相關，是個人的視角，難免有缺失或者偏頗，同時限於篇幅，也很難全面。僅作拋磚引玉，希望和同業共同探討。

相關閱讀：Snowflake如日中天是否代表Hadoop已死？大數據體系到底是什么？

原文鏈接：https://blog.csdn.net/csdnnews/article/details/120309937

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 大數據技術體系（轉）融合趨勢下基於 Flink Kylin Hudi 湖倉一體的大數據生態體系如何讓熱點圖支持大數據大數據治理體系簡談阿里雲大數據產品體系大數據2020-2021技術盤點與趨勢從大數據平台CDP的架構看大數據的發展趨勢 2021年大數據發展趨勢及動態大數據：阿里數據整合及管理體系 OneData 大數據排序問題