從微信朋友圈的評論可見性,談因果一致性在分布式系統中的應用


概述       

       最近在讀Designing Data-Intensive Application(簡稱DDIA)設計數據密集型應用,中文翻譯, 整體感覺翻譯得還是不錯的。讀到第九章《一致性與共識》的時候,里面有對因果一致性的闡述,結合之前微信朋友圈技術負責人在2015年ArchSummit全球架構師峰會(相關的分享資料可從如下地方獲取)上關於朋友圈某一條狀態的評論以及評論的回復,在跨數據中心(IDC)多副本間復制數據時,對因果一致性理論的應用,巧妙地解決了寫沖突的問題。我們來看看因果一致性在實際業務開發中是如何應用的。

因果一致性的理解

     下面我們先就DDIA的內容來看一個簡單的問-答例子,並由此給因果關系下一個定義:

圖1、問-答的因果關系

       從上圖1可知,一個對話的觀察者(Observer)首先看到問題的答案“About ten seconds...”,然后才看到被回答的問題“How far into the ...”。這是令人困惑的,因為它違背了我們對因與果的直覺:如果一個問題被回答,顯然問題本身得先在那里,因為給出答案的人必須已經看到這個問題,我們認為在問題和答案之間存在因果依賴。

       考慮我們設計這樣一個問答平台,當有一個用戶去訪問數據,例如刷新最新的所有問-答列表,就像刷新知乎推薦頁面一樣,他一定要先看到問題,然后再看到答案,否則就會給用戶帶來很大的困擾。因為只看到答案,而沒有相應的問題是沒有實際的意義的。

       正如DDIA所提到的,因果關系對事件施加了一種順序:因在果之前,消息發送在消息收取之前。而且就像現實生活中一樣,一件事會順序地導致另一件事發生:某個節點讀取了一些數據然后寫入一些結果,另一個節點讀取其寫入的內容,並依次寫入一些其他內容等等。這些因果依賴的操作鏈定義了系統中的因果順序,即什么在什么之前發生。從而我們也引出了分布式系統的因果一致性,如果一個系統服從因果關系所規定的順序,我們說它是因果一致性的。

微信朋友圈的因果一致性

       下面我們來看微信朋友圈某條狀態的評論以及對評論的答復(也是評論)所構成的因果關系,以及微信是怎樣通過保證不同數據中心間的因果一致性來保證一個用戶在刷朋友圈的時候不會出現看到評論所對應的答復,卻看不到答復對應的評論。要理解下文的前提是一定要實事前去學習前文提到的:微信朋友圈技術負責人陳明在2015年ArchSummit全球架構師峰會上的分享資料。

圖2、微信分布在全球四地的數據中心

       從圖2微信分布在全球四地的數據中心,可知用戶小王有兩個朋友:Mary、Kate,分別在不同的區域下(數據中心),所以他們要看到彼此朋友圈的內容時,必須等到相關的數據在不同數據中心間的副本同步到用戶所在的IDC完成之后才能看到。

 圖3-1、數據在副本間同步時亂序

 圖3-2、數據在副本間同步時亂序

       從上圖3-1、3-2可知,由於網絡在不同副本間復制數據時的延遲、中斷等分布式系統中常見的場景,導致兩條消息在同步到用戶Kate(加拿大)所在數據中心上的副本時已經亂序了。即原先順序是這樣的:“Mary:這是哪里?”->“小王:Mary,這是梅里雪山”,然而Kate去數據庫中查到的消息卻是這樣的順序:“小王:Mary,這是梅里雪山”->“Mary:這是哪里?”,或者中間的某個時刻只能查詢到“小王:Mary,這是梅里雪山”這一條消息,你說Kate會不會懵逼。

      為了解決這個問題,微信是怎樣來處理的呢,且看下面分析。

圖4-1、因果關系的梳理

圖4-2、因果關系的梳理

       從上圖4-1、4-2可知,我們可以將Mary對小王所發布的朋友圈狀態的評論“Mary:這是哪里?”當成因,而把小王對Mary評論的答復“小王:Mary,這是梅里雪山”當成果。按照這樣的約定,當這兩條數據同步到Kate所在的數據中心副本時即使發生亂序,Kate根據在刷朋友圈時,根據因果關系也可以將這個評論、答復的順序調整到正確的、可閱讀的方式。那微信到底是采用什么方法來讓各個地區的用戶理解這個約定呢?具體來看:

 圖5、朋友圈事件因果一致性的算法

      從圖5我們可知,微信采用如下的方案:

  • 每條評論都有一個唯一的且遞增的數字ID,確保排重
  • 每條新評論的ID都必須比本地已經見過的全局最大的ID大,確保因果關系
  • 廣播本地看到的所有評論和新評論到其它IDC;相同ID的評論合並排重

     我們可以針對上面的三點背后的技術作出合理性的解讀跟假設:

1、每條評論都有一個唯一的且遞增的數字ID:那么背后肯定是一個ID生成器,各個數據中心都有一個這樣的入口來獲取本IDC內唯一、遞增的ID。具體怎么做的可參考

2、每條新評論的ID都必須比本地已經見過的全局最大的ID大,確保因果關系:如上圖在香港的數據中心,當發表完2的評論,並且已經同步上海數據中心過來的1 4 7等ID的評論之后,如果再有香港地域下的用戶發表新評論時,那么一定要大於當前香港數據中心能看到的全局最大ID,此時是7,所以香港地域此時用戶最新發表的評論的ID必須大於7(上圖有一個“跳過5”的備注),所以上圖中的ID(8)就是從這里得出的。

3、廣播本地看到的所有評論和新評論到其它IDC;相同ID的評論合並排重:那么什么時候廣播呢?其實就是本地域下的用戶針對同一條朋友圈狀態有評論時,該地域就負責申請一個全局ID,然后將這個評論的事件廣播給其他的數據中心。注意這個過程需要合並所有看到的序列,例如香港數據中心就合並1 2 4 7 8等針對同一條朋友圈狀態的一系列評論事件IDs,然后再整體廣播出去,這樣才能保證針對同一條狀態的所有當前最新的事件整體被廣播出去,否則此時香港IDC只廣播8的話,如果前面的事件序列在廣播的中途丟失了,那么其他節點比如加拿大IDC就會漏掉部分評論事件,這也是數據多重補位的措施。當然這個方法有一個前提就是:因為同一個朋友圈的發布狀態,一般的評論不會很多,所以造成的數據冗余交互不會很大,否則是不行的。至於相同ID的評論合並排重,上圖5可以看出,加拿大IDC會收到來自上海IDC的1 4 7事件系列,也會收到來自香港IDC同步過來的1 4 7 8 事件系列,這兩個廣播的事件系列有重復,所以需要去重。

總結

      以上就是因果一致性在實際分布式系統業務中的應用。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM