淘寶海量數據產品的技術架構

本文轉載自查看原文 2014-04-01 15:19 4938 架構/ 設計/ 架構與設計模式

淘寶海量數據產品的技術架構是什么，又是如何應對雙十一的海量訪問的？先看圖：

按照數據的流向來划分，我們把淘寶數據產品的技術架構分為五層（如圖1所示），分別是數據源、計算層、存儲層、查詢層和產品層。位於架構頂端的是我們的數據來源層，這里有淘寶主站的用戶、店鋪、商品和交易等數據庫，還有用戶的瀏覽、搜索等行為日志等。這一系列的數據是數據產品最原始的生命力所在。

在數據源層實時產生的數據，通過淘寶自主研發的數據傳輸組件DataX、DbSync和Timetunnel准實時地傳輸到一個有1500個節點的Hadoop集群上，這個集群我們稱之為“雲梯”，是計算層的主要組成部分。在“雲梯”上，我們每天有大約40000個作業對1.5PB的原始數據按照產品需求進行不同的MapReduce計算。這一計算過程通常都能在凌晨兩點之前完成。相對於前端產品看到的數據，這里的計算結果很可能是一個處於中間狀態的結果，這往往是在數據冗余與前端計算之間做了適當平衡的結果。

不得不提的是，一些對實效性要求很高的數據，例如針對搜索詞的統計數據，我們希望能盡快推送到數據產品前端。這種需求再采用“雲梯”來計算效率將是比較低的，為此我們做了流式數據的實時計算平台，稱之為“銀河”。“銀河”也是一個分布式系統，它接收來自TimeTunnel的實時消息，在內存中做實時計算，並把計算結果在盡可能短的時間內刷新到NoSQL存儲設備中，供前端產品調用。

容易理解，“雲梯”或者“銀河”並不適合直接向產品提供實時的數據查詢服務。這是因為，對於“雲梯”來說，它的定位只是做離線計算的，無法支持較高的性能和並發需求；而對於“銀河”而言，盡管所有的代碼都掌握在我們手中，但要完整地將數據接收、實時計算、存儲和查詢等功能集成在一個分布式系統中，避免不了分層，最終仍然落到了目前的架構上。

為此，我們針對前端產品設計了專門的存儲層。在這一層，我們有基於MySQL的分布式關系型數據庫集群MyFOX和基於HBase的NoSQL存儲集群Prom，在后面的文字中，我將重點介紹這兩個集群的實現原理。除此之外，其他第三方的模塊也被我們納入存儲層的范疇。存儲層異構模塊的增多，對前端產品的使用帶來了挑戰。為此，我們設計了通用的數據中間層——glider——來屏蔽這個影響。glider以HTTP協議對外提供restful方式的接口。數據產品可以通過一個唯一的URL獲取到它想要的數據。

以上是淘寶海量數據產品在技術架構方面的一個概括性的介紹。

分布式MySQL集群的查詢代理層——MyFOX

淘寶數據產品選擇MySQL的MyISAM引擎作為底層的數據存儲引擎。在此基礎上，為了應對海量數據，我們設計了分布式MySQL集群的查詢代理層——MyFOX，使得分區對前端應用透明。

目前，存儲在MyFOX中的統計結果數據已經達到10TB，占據着數據魔方總數據量的95%以上，並且正在以每天超過6億的增量增長着（如圖2所示）。這些數據被我們近似均勻地分布到20個MySQL節點上，在查詢時，經由MyFOX透明地對外服務:

值得一提的是，在MyFOX現有的20個節點中，並不是所有節點都是“平等”的。一般而言，數據產品的用戶更多地只關心“最近幾天”的數據，越早的數據，越容易被冷落。為此，出於硬件成本考慮，我們在這20個節點中分出了“熱節點”和“冷節點”（如上圖）

顧名思義，“熱節點”存放最新的、被訪問頻率較高的數據。對於這部分數據，我們希望能給用戶提供盡可能快的查詢速度，所以在硬盤方面，我們選擇了每分鍾15000轉的SAS硬盤，按照一個節點兩台機器來計算，單位數據的存儲成本約為4.5W/TB。相對應地，“冷數據”我們選擇了每分鍾7500轉的SATA硬盤，單碟上能夠存放更多的數據，存儲成本約為1.6W/TB。將冷熱數據進行分離的另外一個好處是可以有效提高內存磁盤比。從圖4可以看出，“熱節點”上單機只有24GB內存，而磁盤裝滿大約有1.8TB（300 * 12 * 0.5 / 1024），內存磁盤比約為4:300，遠遠低於MySQL服務器的一個合理值。內存磁盤比過低導致的后果是，總有一天，即使所有內存用完也存不下數據的索引了——這個時候，大量的查詢請求都需要從磁盤中讀取索引，效率大打折扣。

NoSQL是SQL的有益補充

在MyFOX出現之后，一切都看起來那么完美，開發人員甚至不會意識到MyFOX的存在，一條不用任何特殊修飾的SQL語句就可以滿足需求。這個狀態持續了很長一段時間，直到有一天，我們碰到了傳統的關系型數據庫無法解決的問題——全屬性選擇器（如下圖所示）。

淘寶數據魔方技術架構解析【轉】

這是一個非常典型的例子。為了說明問題，我們仍然以關系型數據庫的思路來描述。對於筆記本電腦這個類目，用戶某一次查詢所選擇的過濾條件可能包括“筆記本尺寸”、“筆記本定位”、“硬盤容量”等一系列屬性（字段），並且在每個可能用在過濾條件的屬性上，屬性值的分布是極不均勻的。在圖5中我們可以看到，筆記本電腦的尺寸這一屬性有着10個枚舉值，而“藍牙功能”這個屬性值是個布爾值，數據的篩選性非常差。

在用戶所選擇的過濾條件不確定的情況下，解決全屬性問題的思路有兩個：一個是窮舉所有可能的過濾條件組合，在“雲梯”上進行預先計算，存入數據庫供查詢；另一個是存儲原始數據，在用戶查詢時根據過濾條件篩選出相應的記錄進行現場計算。很明顯，由於過濾條件的排列組合幾乎是無法窮舉的，第一種方案在現實中是不可取的；而第二種方案中，原始數據存儲在什么地方？如果仍然用關系型數據庫，那么你打算怎樣為這個表建立索引？

這一系列問題把我們引到了“創建定制化的存儲、現場計算並提供查詢服務的引擎”的思路上來，這就是Prometheus（如下圖所示）。

淘寶數據魔方技術架構解析【轉】

從圖中可以看出，我們選擇了HBase作為Prom的底層存儲引擎。之所以選擇HBase，主要是因為它是建立在HDFS之上的，並且對於MapReduce有良好的編程接口。盡管Prom是一個通用的、解決共性問題的服務框架，但在這里，我們仍然以全屬性選擇為例，來說明Prom的工作原理。這里的原始數據是前一天在淘寶上的交易明細，在HBase集群中，我們以屬性對（屬性與屬性值的組合）作為row-key進行存儲。而row-key對應的值，我們設計了兩個column-family，即存放交易ID列表的index字段和原始交易明細的data字段。在存儲的時候，我們有意識地讓每個字段中的每一個元素都是定長的，這是為了支持通過偏移量快速地找到相應記錄，避免復雜的查找算法和磁盤的大量隨機讀取請求。

淘寶數據魔方技術架構解析【轉】

上圖用一個典型的例子描述的Prom在提供查詢服務時的工作原理，限於篇幅，這里不做詳細描述。值得一提的是，Prom支持的計算並不僅限於求和SUM運算，統計意義上的常用計算都是支持的。在現場計算方面，我們對HBase進行了擴展，Prom要求每個節點返回的數據是已經經過“本地計算”的局部最優解，最終的全局最優解只是各個節點返回的局部最優解的一個簡單匯總。很顯然，這樣的設計思路是要充分利用各個節點的並行計算能力，並且避免大量明細數據的網絡傳輸開銷。

用中間層隔離前后端- glider

上文提到過，MyFOX和Prom為數據產品的不同需求提供了數據存儲和底層查詢的解決方案，但隨之而來的問題是，各種異構的存儲模塊給前端產品的使用帶來了很大的挑戰。並且，前端產品的一個請求所需要的數據往往不可能只從一個模塊獲取。

舉個例子，我們要在數據魔方中看昨天做熱銷的商品，首先從MyFOX中拿到一個熱銷排行榜的數據，但這里的“商品”只是一個ID，並沒有ID所對應的商品描述、圖片等數據。這個時候我們要從淘寶主站提供的接口中去獲取這些數據，然后一一對應到熱銷排行榜中，最終呈現給用戶。

淘寶數據魔方技術架構解析【轉】

從本質上來講，這就是廣義上的異構“表”之間的JOIN操作。那么，誰來負責這個事情呢？很容易想到，在存儲層與前端產品之間增加一個中間層，它負責各個異構“表”之間的數據JOIN和UNION等計算，並且隔離前端產品和后端存儲，提供統一的數據查詢服務。這個中間層就是glider（如圖所示）。

除了起到隔離前后端以及異構“表”之間的數據整合的作用之外，glider的另外一個不容忽視的作用便是緩存管理。上文提到過，在特定的時間段內，我們認為數據產品中的數據是只讀的，這是利用緩存來提高性能的理論基礎。

glider中存在兩層緩存，分別是基於各個異構“表”（datasource）的二級緩存和整合之后基於獨立請求的一級緩存。除此之外，各個異構“表”內部可能還存在自己的緩存機制。細心的讀者一定注意到了圖3中MyFOX的緩存設計，我們沒有選擇對匯總計算后的最終結果進行緩存，而是針對每個分片進行緩存，其目的在於提高緩存的命中率，並且降低數據的冗余度。

大量使用緩存的最大問題就是數據一致性問題。如何保證底層數據的變化在盡可能短的時間內體現給最終用戶呢？這一定是一個系統化的工程，尤其對於分層較多的系統來說。

用戶的請求中一定是帶了緩存控制的“命令”的，這包括URL中的query string，和HTTP頭中的“If-None-Match”信息。並且，這個緩存控制“命令”一定會經過層層傳遞，最終傳遞到底層存儲的異構“表”模塊。各異構“表”除了返回各自的數據之外，還會返回各自的數據緩存過期時間（ttl），而glider最終輸出的過期時間是各個異構“表”過期時間的最小值。這一過期時間也一定是從底層存儲層層傳遞，最終通過HTTP頭返回給用戶瀏覽器的。

緩存系統不得不考慮的另一個問題是緩存穿透與失效時的雪崩效應。緩存穿透是指查詢一個一定不存在的數據，由於緩存是不命中時被動寫的，並且出於容錯考慮，如果從存儲層查不到數據則不寫入緩存，這將導致這個不存在的數據每次請求都要到存儲層去查詢，失去了緩存的意義。

有很多種方法可以有效地解決緩存穿透問題，最常見的則是采用布隆過濾器，將所有可能存在的數據哈希到一個足夠大的bitmap中，一個一定不存在的數據會被這個bitmap攔截掉，從而避免了對底層存儲系統的查詢壓力。在數據魔方里，我們采用了一個更為簡單粗暴的方法，如果一個查詢返回的數據為空（不管是數據不存在，還是系統故障），我們仍然把這個空結果進行緩存，但它的過期時間會很短，最長不超過五分鍾。

緩存失效時的雪崩效應對底層系統的沖擊非常可怕。遺憾的是，這個問題目前並沒有很完美的解決方案。大多數系統設計者考慮用加鎖或者隊列的方式保證緩存的單線程（進程）寫，從而避免失效時大量的並發請求落到底層存儲系統上。在數據魔方中，我們設計的緩存過期機制理論上能夠將各個客戶端的數據失效時間均勻地分布在時間軸上，一定程度上能夠避免緩存同時失效帶來的雪崩效應。

結束語

正是基於本文所描述的架構特點，數據魔方目前已經能夠提供壓縮前80TB的數據存儲空間，數據中間層glider支持每天4000萬的查詢請求，平均響應時間在28毫秒（6月1日數據），足以滿足未來一段時間內的業務增長需求。盡管如此，整個系統中仍然存在很多不完善的地方。一個典型的例子莫過於各個分層之間使用短連接模式的HTTP協議進行通信。這樣的策略直接導致在流量高峰期單機的TCP連接數非常高。所以說，一個良好的架構固然能夠在很大程度上降低開發和維護的成本，但它自身一定是隨着數據量和流量的變化而不斷變化的。我相信，過不了幾年，淘寶數據產品的技術架構一定會是另外的樣子。

其他文章摘要:

【1】海量數據領域涵蓋分布式數據庫、分布式存儲、數據實時計算、分布式計算等多個技術方向。

對於海量數據處理，從數據庫層面來講無非就是兩點：1、壓力如何分攤，分攤的目的就是為了把集中式變為分布式。2、采用多種的存儲方案，針對不同的業務數據，不同的數據特點，采用RDBMS或采用KV Store，選擇不同數據庫軟件，使用集中式或分布式存儲，或者是其他的一些存儲方案。

【2】將數據庫進行拆分，包括水平拆分和垂直拆分。

水平拆分主要解決兩個問題：1、底層存儲的無關性。2、通過線性的去增加機器，支持數據量以及訪問請求包括TPS（Transaction Per Second）、QPS（Query Per Second）的壓力增長。其方式如把一張大數據表按一定的方式拆分到不同的數據庫服務器上。海量數據從集中式走向分布式，可能涉及跨多個IDC容災備份特性。

【3】阿里巴巴的數據對不同地域數據的處理方法。

由三個產品密切配合解決：是Erosa、Eromanga和Otter。Erosa做MySQL（或其他數據庫庫）的Bin-Log時時解析，解析后放到Eromanga。Eromanga是增量數據的發布訂閱的產品。Erosa產生了時時變更的數據發布到Eromanga。然后各個業務端（搜索引擎、數據倉庫或關聯的業務方）通過訂閱的方式，把時時變更的數據時時的通過Push或Pull的方式拉到其業務端，進行一些業務處理。而Otter就是跨IDC的數據同步，把數據能及時反映到不同的AA站。數據同步可能會有沖突，暫時是以那個站點數據為優先，比如說A機房的站點的數據是優先的，不管怎么樣，它就覆蓋到B的。

【4】對於緩存。

1、注意切分力度，根據業務選擇切分力度。把緩存力度划分的越細，緩存命中率相對會越高。2、確認緩存的有效生命周期。

【5】拆分策略

1、按字段拆分（最細力度）。如把表的Company字段拆掉，就按COMPANY_ID來拆。

2、按表來拆，把一張表拆到MySQL，那張表拆到MySQL集群，更類似於垂直拆分。

3、按Schema拆分，Schema拆分跟應用相關的。如把某一模塊服務的數據放到某一機群，另一模塊服務的數據放到其他MySQL機群。但對外提供的整體服務是這些機群的整體組合，用Cobar來負責協調處理。

網站應用架構演化

單一應用架構
- 當網站流量很小時，只需一個應用，將所有功能都部署在一起，以減少部署節點和成本。
- 此時，用於簡化增刪改查工作量的 數據訪問框架(ORM) 是關鍵。
垂直應用架構
- 當訪問量逐漸增大，單一應用增加機器帶來的加速度越來越小，將應用拆成互不相干的幾個應用，以提升效率。
- 此時，用於加速前端頁面開發的 Web框架(MVC) 是關鍵。
分布式服務架構
- 當垂直應用越來越多，應用之間交互不可避免，將核心業務抽取出來，作為獨立的服務，逐漸形成穩定的服務中心，使前端應用能更快速的響應多變的市場需求。
- 此時，用於提高業務復用及整合的 分布式服務框架(RPC) 是關鍵。
流動計算架構
- 當服務越來越多，容量的評估，小服務資源的浪費等問題逐漸顯現，此時需增加一個調度中心基於訪問壓力實時管理集群容量，提高集群利用率。
- 此時，用於提高機器利用率的 資源調度和治理中心(SOA) 是關鍵。

幾種通信協議的比較

總體性能比較：Socket (BIO/NIO/Netty/MINA) > RMI > HTTP Invoker >= Hessian > REST >> Burlap > EJB >> Web Service

如果協議設計的比較好，Socket性能毫無疑問是最高，同時靈活性和復雜度也最高，如果采用高效的網絡框架如:Mina、Netty等可以降低開發復雜度，一般在對性能有非常苛刻的條件下使用。
RMI 的性能相對略低，但是與Socket還在同1個數量級，同時只能在Java系統間通信，如果是基於互聯網使用，還存在穿越防火牆的問題。采用Spring 封裝的方式使用比原始RMI方式性能略高，主要原因是：Spring采用了代理和緩存機制，節省了對象重新獲取的時間。
HTTPInvoker是Spring特有的，只能在客戶端和服務器端都采用Spring框架下使用，與RMI本質相同，使用java的序列化技術傳輸對象，兩者性能差別較小。
Hessian 在數據量較小時性能表現出眾，甚至比RMI還高，在數據結構復雜的對象或者大量數據對象時，較RMI要慢20%左右；Hessian的優點是精簡高效，同時可以跨語言使用，目前支持Java,C++, .net, python, ruby等語言。另外Hessian可以充分利用web容器的成熟功能，在處理大量用戶訪問時很有優勢，在資源分配、線程排隊、異常處理等方面都可以由 web容器保證，而RMI本身不提供多線程的服務器。
REST架構也是一種比較簡單、高效的Web服務架構，相對於Hessian性能略低，但還在同一個數量級，同時也是基於HTTP協議，目前也有比較多的成功案例。
Burlap 在數據量非常小時性能尚可，同時性能隨着數據量的增加急劇降低，通常性能耗時是RMI的3倍左右，主要原因是：Hessian采用二進制傳輸數據，而 Burlap采用XML格式，而XML描述內容太多，同樣的結構，其傳輸量要大很多，同時，XML的解析是比較耗資源的，尤其大數據量情況下更是如此。
EJB基於RMI協議，性能不高，同時只能在Java系統內使用，不能跨語言，目前使用越來越少，目前阿里巴巴內部已經完全放棄EJB。
在這些遠程調用協議中，Web Service的性能是最低的，一般情況下，Web Service的性能相對於Hessian性能要慢10~20倍左右，同時，對於同樣的訪問請求，Web Service的傳輸數據量約為Hessian的6倍左右，對網絡帶寬消耗非常大，同時XML的解碼器普遍性能不高，XML<->Java Bean的編碼、解碼非常耗費資源，對於並發和負載比較高的網站不是一個好的選擇。同時，Web Service的使用也不太方便。

總結：Hessian和REST架構個人認為是比較優秀的高性能通信協議，如果對性能要求特別苛刻可以直接采用Socket方式，目前，阿里巴巴內部的遠程調用主要采用Hessian和Dubbo(基於Mina/Netty框架)，經受了苛刻的高並發、高負載考驗。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 淘寶技術架構演進之路 Linux海量數據高並發實時同步架構方案雜談業務架構、應用架構、數據架構和技術架構什么是大數據技術架構淘寶超強架構演進海量列式非關系數據庫HBase 架構，shell與API 海量數據排序如何處理海量數據海量數據的分頁怎么破？大數據中台技術架構