lamba數據架構以及數據湖


  面試大數據項目,面試過程中發現面試官提到的兩個概念沒有搞清楚:

  1. lamba數據架構;這個概念的提出是由storm的作者提出來的,其實主旨就是想要說明,數據的處理分成三層,一類是批處理程序(batch laryer,非實時),比如午夜跑出來的報表,可以供第二天進行消費;第二類是實時增量處理數據(speed layer),比如通過kafka等流計算工具進行的實時增量處理;第三層就是service layer,是對外提供服務的層,既可以訪問batch layer或者realtime layer,還可以整合兩者數據然后對外提供服務。

  2. 數據湖,數據湖其實是一個很模糊的概念,籠統的來理解就是可以集成各個源的數據;數據湖最大價值其實是中轉站,這個概念其實是和數據水庫很像(水庫,就是用於臨時蓄水),數據水庫的價值在於收集各個源的數據后,給后端的數據倉庫使用;數據湖的概念比數據水庫又多了一個:數據水庫的消費者可能會比較多,不僅僅是數據倉庫,可能是其他的目的地。

  數據湖最大的誤區在於兩個:

  第一個是數據湖用於存儲數據;數據如果只是為了存儲而存儲是最大的資源浪費,數據的存在一定是為了利用和消費;所謂消費就是一定是有某種機制可以不斷的讓數據湖中的數據減少;當然數據湖還會不斷被注入新的湖水;

  第二個就是將自助式查詢服務暴露給普通的用戶;因為數據湖里面的數據都是原始數據,如果讓缺乏數據經驗的人來進行處理很可能會導致服務器壓力;最好讓數據科學家的數據專家來使用數據湖里面的數據。

 

參考:

數據系統架構——Lambda architecture

https://yq.aliyun.com/articles/57876?spm=a2c4e.11155435.0.0.58375483oWJayU

數據湖只是個嘩眾取寵的偽概念嗎?

http://www.infoq.com/cn/articles/is-the-data-lake-just-a-grandstanding-concept

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM