大數據Lambda架構

本文轉載自查看原文 2016-02-22 08:41 4215

1 Lambda架構介紹

Lambda架構划分為三層。各自是批處理層，服務層，和加速層。

終於實現的效果，能夠使用以下的表達式來說明。

query = function(alldata)

1.1 批處理層(Batch Layer, Apache Hadoop)

批處理層主用由Hadoop來實現，負責數據的存儲和產生隨意的視圖數據。

計算視圖數據是一個連續的操作，因此。當新數據到達時，使用MapReduce迭代地將數據聚集到視圖中。

將數據集中計算得到的視圖，這使得它不會被頻繁地更新。依據你的數據集的大小和集群的規模，不論什么迭代轉換計算的時間大約須要幾小時。

1.2 服務層(Serving layer ,Cloudera Impala)

服務層是由Cloudera Impala框架來實現的，總體而言，使用了Impala的主要特性。從批處理輸出的是一系列包括估計算視圖的原始文件。服務層負責建立索引和呈現視圖。以便於它們可以被非常好被查詢到。

因為批處理視圖是靜態的，服務層只須要提供批量地更新和隨機讀，而Cloudera Impala正好符合我們的要求。為了使用Impala呈現視圖。全部的服務層就是在Hive元數據中創建一個表。這些元數據都指向HDFS中的文件。隨后，用戶立馬可以使用Impala查詢到視圖。

Hadoop和Impala是批處理層和服務層極好的工具。

Hadoop可以存儲和處理千兆字節（petabytes）數據，而Impala可以查詢高速且交互地查詢到這個數據。但是。批處理和服務層單獨存在，無法滿足實時性需求。原因是MapReduce在設計上存在非常高的延遲，它須要花費幾小時的時間來將新數據展現給視圖。然后通過媒介傳遞給服務層。

這就是為什么我們須要加速層的原因。

1.3 加速層 (Speed layer, Storm, Apache HBase)

在本質上，加速層與批處理層是一樣的，都是從它接受到的數據上計算而得到視圖。加速層就是為了彌補批處理層的高延遲性問題，它通過Strom框架計算實時視圖來解決問題。實時視圖只包括數據結果去供應批處理視圖。同一時候，批處理的設計就是連續反復從獲取的數據中計算批處理視圖，而加速層使用的是增量模型，這是鑒於實時視圖是增量的。加速層的高明之處在於實時視圖作為暫時量。只要數據傳播到批處理中，服務層中對應的實時視圖結果就會被丟掉。這個被稱作為“全然隔離”，意味着架構中的復雜部分被推送到結構層次中。而結構層的結果為暫時的，大慷慨便了連續處理視圖。

令人疑惑的那部分就是呈現實時視圖。以便於它們可以被查詢到。以及使用批處理視圖合並來獲得所有的結果。

因為實時視圖是增量的。加速層須要同一時候隨機的讀和寫。為此，我將使用Apache HBase數據庫。

HBase提供了對Storm連續地增量化實時視圖的能力。同一時候，為Impala提供查詢經批處理視圖合並后得到的結果。Impala查詢存儲在HDFS中批處理視圖和存儲在HBase中的實時視圖，這使得Impala成為相當完美的工具。

Lambda抽象架構也能夠這樣來描寫敘述：

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 大數據Lambda架構一：大數據架構回顧-Lambda架構大數據平台Lambda架構詳解大數據處理中的Lambda架構和Kappa架構深入理解大數據架構之——Lambda架構【大數據】大數據處理-Lambda架構-Kappa架構大數據平台架構--Lambda、Kappa、SMACK 大數據小視角4：小議Lambda 與 Kappa 架構，不可變數據的計算探索五個頂級的大數據架構大數據架構之:Flume