【分布式】1、CAP原則(CAP定理)、BASE理論


CAP原則又稱CAP定理,指的是在一個分布式系統中, Consistency(一致性)、 Availability(可用性)、Partition tolerance(分區容錯性),三者不可得兼。

  CAP原則是NOSQL數據庫的基石。Consistency(一致性)。 Availability(可用性)。Partition tolerance(分區容錯性)。

分布式系統的CAP理論:理論首先把分布式系統中的三個特性進行了如下歸納:
  • 一致性(C):在分布式系統中的所有數據備份,在同一時刻是否同樣的值。(等同於所有節點訪問同一份最新的數據副本)
  • 可用性(A):在集群中一部分節點故障后,集群整體是否還能響應客戶端的讀寫請求。(對數據更新具備高可用性)
  • 分區容忍性(P):以實際效果而言,分區相當於對通信的時限要求。系統如果不能在時限內達成數據一致性,就意味着發生了分區的情況,必須就當前操作在C和A之間做出選擇。

一致性與可用性的決擇編輯

CAP理論就是說在分布式存儲系統中,最多只能實現上面的兩點。而由於當前的網絡硬件肯定會出現延遲丟包等問題,所以分區容忍性是我們必須需要實現的。所以我們只能在一致性和可用性之間進行權衡,沒有NoSQL系統能同時保證這三點。
對於web2.0網站來說,關系數據庫的很多主要特性卻往往無用武之地
  1. 數據庫事務一致性需求 
      很多web實時系統並不要求嚴格的數據庫事務,對讀一致性的要求很低,有些場合對寫一致性要求並不高。允許實現最終一致性。
  2. 數據庫的寫實時性和讀實時性需求
      對關系數據庫來說,插入一條數據之后立刻查詢,是肯定可以讀出來這條數據的,但是對於很多web應用來說,並不要求這么高的實時性,比方說發一條消息之 后,過幾秒乃至十幾秒之后,我的訂閱者才看到這條動態是完全可以接受的。
  3. 對復雜的SQL查詢,特別是多表關聯查詢的需求 
      任何大數據量的web系統,都非常忌諱多個大表的關聯查詢,以及復雜的數據分析類型的報表查詢,特別是SNS類型的網站,從需求以及產品設計角 度,就避免了這種情況的產生。往往更多的只是單表的主鍵查詢,以及單表的簡單條件分頁查詢,SQL的功能被極大的弱化了。

BASE理論

BASE是Basically Available(基本可用)、Soft state(軟狀態)和Eventually consistent(最終一致性)三個短語的簡寫,BASE是對CAP中一致性和可用性權衡的結果,其來源於對大規模互聯網系統分布式實踐的結論,是基於CAP定理逐步演化而來的,其核心思想是即使無法做到強一致性(Strong consistency),但每個應用都可以根據自身的業務特點,采用適當的方式來使系統達到最終一致性(Eventual consistency)。接下來我們着重對BASE中的三要素進行詳細講解。

基本可用

基本可用是指分布式系統在出現不可預知故障的時候,允許損失部分可用性——但請注意,這絕不等價於系統不可用,以下兩個就是“基本可用”的典型例子。

  • 響應時間上的損失:正常情況下,一個在線搜索引擎需要0.5秒內返回給用戶相應的查詢結果,但由於出現異常(比如系統部分機房發生斷電或斷網故障),查詢結果的響應時間增加到了1~2秒。
  • 功能上的損失:正常情況下,在一個電子商務網站上進行購物,消費者幾乎能夠順利地完成每一筆訂單,但是在一些節日大促購物高峰的時候,由於消費者的購物行為激增,為了保護購物系統的穩定性,部分消費者可能會被引導到一個降級頁面。

弱狀態也稱為軟狀態,和硬狀態相對,是指允許系統中的數據存在中間狀態,並認為該中間狀態的存在不會影響系統的整體可用性,即允許系統在不同節點的數據副本之間進行數據聽不的過程存在延時。

最終一致性

最終一致性強調的是系統中所有的數據副本,在經過一段時間的同步后,最終能夠達到一個一致的狀態。因此,最終一致性的本質是需要系統保證最終數據能夠達到一致,而不需要實時保證系統數據的強一致性

亞馬遜首席技術官Werner Vogels在於2008年發表的一篇文章中對最終一致性進行了非常詳細的介紹。他認為最終一致性時一種特殊的弱一致性:系統能夠保證在沒有其他新的更新操作的情況下,數據最終一定能夠達到一致的狀態,因此所有客戶端對系統的數據訪問都能夠胡渠道最新的值。同時,在沒有發生故障的前提下,數據達到一致狀態的時間延遲,取決於網絡延遲,系統負載和數據復制方案設計等因素。

在實際工程實踐中,最終一致性存在以下五類主要變種。

因果一致性:

        因果一致性是指,如果進程A在更新完某個數據項后通知了進程B,那么進程B之后對該數據項的訪問都應該能夠獲取到進程A更新后的最新值,並且如果進程B要對該數據項進行更新操作的話,務必基於進程A更新后的最新值,即不能發生丟失更新情況。與此同時,與進程A無因果關系的進程C的數據訪問則沒有這樣的限制。

讀己之所寫:

        讀己之所寫是指,進程A更新一個數據項之后,它自己總是能夠訪問到更新過的最新值,而不會看到舊值。也就是說,對於單個數據獲取者而言,其讀取到的數據一定不會比自己上次寫入的值舊。因此,讀己之所寫也可以看作是一種特殊的因果一致性。

會話一致性:

        會話一致性將對系統數據的訪問過程框定在了一個會話當中:系統能保證在同一個有效的會話中實現“讀己之所寫”的一致性,也就是說,執行更新操作之后,客戶端能夠在同一個會話中始終讀取到該數據項的最新值。

單調讀一致性:

        單調讀一致性是指如果一個進程從系統中讀取出一個數據項的某個值后,那么系統對於該進程后續的任何數據訪問都不應該返回更舊的值。

單調寫一致性:

         單調寫一致性是指,一個系統需要能夠保證來自同一個進程的寫操作被順序地執行。

以上就是最終一致性的五類常見的變種,在時間系統實踐中,可以將其中的若干個變種互相結合起來,以構建一個具有最終一致性的分布式系統。事實上,可以將其中的若干個變種相互結合起來,以構建一個具有最終一致性特性的分布式系統。事實上,最終一致性並不是只有那些大型分布式系統才設計的特性,許多現代的關系型數據庫都采用了最終一致性模型。在現代關系型數據庫中,大多都會采用同步和異步方式來實現主備數據復制技術。在同步方式中,數據的復制國恥鞥通常是更新事務的一部分,因此在事務完成后,主備數據庫的數據就會達到一致。而在異步方式中,備庫的更新往往存在延時,這取決於事務日志在主備數據庫之間傳輸的時間長短,如果傳輸時間過長或者甚至在日志傳輸過程中出現異常導致無法及時將事務應用到備庫上,那么狠顯然,從備庫中讀取的的數據將是舊的,因此就出現了不一致的情況。當然,無論是采用多次重試還是認為數據訂正,關系型數據庫還是能搞保證最終數據達到一致——這就是系統提供最終一致性保證的經典案例。

總的來說,BASE理論面向的是大型高可用可擴展的分布式系統,和傳統事務的ACID特性使相反的,它完全不同於ACID的強一致性模型,而是提出通過犧牲強一致性來獲得可用性,並允許數據在一段時間內是不一致的,但最終達到一致狀態。但同時,在實際的分布式場景中,不同業務單元和組件對數據一致性的要求是不同的,因此在具體的分布式系統架構設計過程中,ACID特性與BASE理論往往又會結合在一起使用。

小結:

計算機系統從集中式向分布式的變革隨着包括分布式網絡、分布式事務和分布式數據一致性等在內的一系列問題與挑戰,同時也催生了一大批諸如ACID、CAP和BASE等經典理論的快速發展。

與NoSQL的關系編輯

傳統的關系型數據庫在功能支持上通常很寬泛,從簡單的鍵值查詢,到復雜的多表聯合查詢再到事務機制的支持。而與之不同的是,NoSQL系統通常注重性能和擴展性,而非事務機制(事務就是強一致性的體現)[2]   。
  傳統的SQL數據庫的事務通常都是支持ACID的強事務機制。A代表原子性,即在事務中執行多個操作是原子性的,要么事務中的操作全部執行,要么一個都不執行;C代表一致性,即保證進行事務的過程中整個數據加的狀態是一致的,不會出現數據花掉的情況;I代表隔離性,即兩個事務不會相互影響,覆蓋彼此數據等;D表示持久化,即事務一量完成,那么數據應該是被寫到安全的,持久化存儲的設備上(比如磁盤)。
  NoSQL系統僅提供對行級別的原子性保證,也就是說同時對同一個Key下的數據進行的兩個操作,在實際執行的時候是會串行的執行,保證了每一個Key-Value對不會被破壞。

CAP的是什么關系

It states, that though its desirable to have Consistency, High-Availability and Partition-tolerance in every system, unfortunately no system can achieve all three at the same time.
在分布式系統的設計中,沒有一種設計可以同時滿足一致性,可用性,分區容錯性 3個特性

注意:不要將弱一致性,最終一致性放到CAP理論里混為一談(混淆概念的坑真多)
弱一致性,最終一致性 你可以認為和CAP的C一點關系也沒有,因為CAP的C是更新操作完成后,任何節點看到的數據完全一致, 弱一致性。最終一致性本身和CAP的C一致性是違背的,所以你可以看到那些謊稱自己系統同時具備CAP 3個特性是多么的可笑,可能國內更多的場景是:一個開放人員一旦走上講台演講,就立馬轉變為了營銷人員,連最基本的理念也不要了
這里有一篇標題很大的文章  cap-twelve-years-later-how-the-rules-have-changed ,實際上本文的changed更多的是在思考方式上,而本身CAP理論是沒有changed的

為什么會是這樣

我們來看一個簡單的問題, 一個DB服務   搭建在兩個機房(北京,廣州),兩個DB實例同時提供寫入和讀取

  1. 假設DB的更新操作是同時寫北京和廣州的DB都成功才返回成功
      在沒有出現網絡故障的時候,滿足CA原則,C 即我的任何一個寫入,更新操作成功並返回客戶端完成后,分布式的所有節點在同一時間的數據完全一致, A 即我的讀寫操作都能夠成功,但是當出現網絡故障時,我不能同時保證CA,即P條件無法滿足


  2. 假設DB的更新操作是只寫本地機房成功就返回,通過binlog/oplog回放方式同步至側邊機房
      這種操作保證了在出現網絡故障時,雙邊機房都是可以提供服務的,且讀寫操作都能成功,意味着他滿足了AP ,但是它不滿足C,因為更新操作返回成功后,雙邊機房的DB看到的數據會存在短暫不一致,且在網絡故障時,不一致的時間差會很大(僅能保證最終一致性)


  3. 假設DB的更新操作是同時寫北京和廣州的DB都成功才返回成功且網絡故障時提供降級服務
      降級服務,如停止寫入,只提供讀取功能,這樣能保證數據是一致的,且網絡故障時能提供服務,滿足CP原則,但是他無法滿足可用性原則

選擇權衡

通過上面的例子,我們得知,我們永遠無法同時得到CAP這3個特性,那么我們怎么來權衡選擇呢?
選擇的關鍵點取決於業務場景

對於大多數互聯網應用來說(如網易門戶),因為機器數量龐大,部署節點分散,網絡故障是常態,可用性是必須需要保證的,所以只有設置一致性來保證服務的AP,通常常見的高可用服務吹噓5個9 6個9服務SLA穩定性就本都是放棄C選擇AP

對於需要確保強一致性的場景,如銀行,通常會權衡CA和CP模型,CA模型網絡故障時完全不可用,CP模型具備部分可用性,實際的選擇需要通過業務場景來權衡(並不是所有情況CP都好於CA,只能查看信息不能更新信息有時候從產品層面還不如直接拒絕服務)

延伸

BASE(Basically Available, Soft State, Eventual Consistency  基本可用、軟狀態、最終一致性) 對CAP AP理論的延伸, Redis等眾多系統構建與這個理論之上
ACID  傳統數據庫常用的設計理念, ACID和BASE代表了兩種截然相反的設計哲學,分處一致性-可用性分布圖譜的兩極。

轉自:http://www.cnblogs.com/duanxz/p/5229352.html


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM