一、事物
事務是以可控的方式對數據資源進行訪問的一組操作。
二、事物的四個特征-ACID
要注意的是事務能夠通過AID來保證這個C的過程,C是目的,AID都是手段。
① Atomic原子性
事務必須是一個原子的操作序列集合,即可以是一個操作,也可以是多個操作。在這個事物執行的過程中,要么全部成功,則整個事物全部成功,如果有一項失敗,則全部失敗,整個事物回滾。
② Consistency
指系統從一個正確的狀態,遷移到另一個正確的狀態。即事物在執行前后,數據庫都必須滿足一條系統設置的約束條件,它依賴於應用層,也就是依賴於開發者。
③ Isolation
在並發的環境中,事物是相互隔離的,一個事物的執行,不能被其他事物所影響。在沒有事物隔離的情況下可能會出現:
-
臟讀:比如事務T1將更新一批結果,然后事務T2讀取該集合,此后T1因為某種原因而回滾之前的操作,這就導致了T2所讀取到的數據是無效的。(臟讀就是指當一個事務正在訪問數據,並且對數據進行了修改,而這種修改還沒有提交到數據庫中,這時,另外一個事務也訪問這個數據,然后使用了這個數據。)
-
不可重復讀:比如事物T1訪問一批數據集並返回給應用層后還沒有結束,事物T2也去訪問並更新該數據集,此時事物T1再去讀取該數據集,使得同一個事物多次讀取的同一數據集不同(重點在於修改數據,指在一個事務內,多次讀同一數據。在這個事務還沒有結束時,另外一個事務也訪問該同一數據。那么,在第一個事務中的兩 次讀數據之間,由於第二個事務的修改,那么第一個事務兩次讀到的的數據可能是不一樣的。這樣就發生了在一個事務內兩次讀到的數據是不一樣的,因此稱為是不可重復讀。例如,一個編輯人員兩次讀取同一文檔,但在兩次讀取之間,作者重寫了該文檔。當編輯人員第二次讀取文檔時,文檔已更改。原始讀取不可重復。如果 只有在作者全部完成編寫后編輯人員才可以讀取文檔,則可以避免該問題。)。
-
幻讀:比如事物T1訪問數據集,並修改了數據某一列的值,使其符合某以約束條件,同時,事物T2也在修改這個數據集,往這個數據集上插入一行新數據(不符合之前的約束條件)。過一段時間后事物T1再次訪問數據集,發現還有未修改的數據,出現幻覺一般。(重點在於新增或者刪除數據,指當事務不是獨立執行時發生的一種現象,例如第一個事務對一個表中的數據進行了修改,這種修改涉及到表中的全部數據行。 同時,第二個事務也修改這個表中的數據,這種修改是向表中插入一行新數據。那么,以后就會發生操作第一個事務的用戶發現表中還有沒有修改的數據行,就好像發生了幻覺一樣。例如,一個編輯人員更改作者提交的文檔,但當生產部門將其更改內容合並到該文檔的主復本時,發現作者已將未編輯的新材料添加到該文檔中。 如果在編輯人員和生產部門完成對原始文檔的處理之前,任何人都不能將新材料添加到文檔中,則可以避免該問題。)
四種隔離級別依次遞增:
(1). 讀未提交
事物沒有提交的過程中允許其他事物去更改數據集。(相當於沒有隔離,易發生臟讀。)
(2). 讀已提交
只允許讀到已經提交的數據。第一次讀原先的數據,第二次讀其他事物修改后提交的數據(易發生不可重復讀)
(3). 可重復讀
保證在事務處理過程中,多次讀取同一個數據時,其值都和事務開始時刻時是一致的。這可以保證原先的數據是一致的,但不能保證新加入的數據是否正確。(易發生幻讀)
(4). 串行化
最嚴格的隔離級別,所有事物串行執行,不存在並發的情況,
④ Durability
一旦事物被提交,則它對數據庫的操作將被永久保存,即使系統出現了宕機也可以進行恢復。
三、CAP定理
一個分布式系統不可能同時滿足一致性Consistency、可用性Availability、分區容錯性Partition tolerance這三個基本需求,最多只能同時滿足其中的兩項。
① 一致性Consistency
這個一致性和ACID的一致性不同,這里的一致性指的是多個副本之間在初始一致(完全相同)的條件下執行一系列操作后,這些副本的數據仍然可以保持一致。
② 可用性Availability
系統可以提供正常的服務,主要有兩個因素:響應時間以及返回正確的結果集。
③ 分區容錯性Partition tolerance
分布式系統中即使出現了網絡分區的情況,仍然能夠滿足一致性和可用性。
網絡分區,是指分布式系統中,不同的節點分布在不同的子網絡(機房/異地網絡)中,由於一些特殊的原因導致這些子網絡之間出現網絡不連通的狀態,但各個子網絡的內部網絡是正常的,從而導致整個系統的網絡環境被切分成了若干孤立的區域。組成一個分布式系統的每個節點的加入與退出都可以看做是一個特殊的網絡分區
三者取其二
-
CA without P:這個時候就相當於放棄了分布式系統的架構,放棄了系統的可擴展性,系統只在單機上運行。
-
CP without A:如果不要求A(可用)。達到C(一致)需要P(分區)通過網絡完全同步,會導致同步時間無限延長。
-
AP wihtout C:要高可用並允許分區,則需放棄一致性。一旦分區發生,節點之間可能會失去聯系,為了高可用,每個節點只能用本地數據提供服務,而這樣會導致全局數據的不一致性。
對於分布式系統來說,P是不能放棄的(可以進行優化),因此通常在可用性和一致性之間權衡。
四、BASE定理
Basically Available(基本可用)、Soft state(軟狀態)、Eventually consistent(最終一致性)
-
基本可用(Basically Available)
基本可用是指分布式系統在出現不可預知的故障的時候,允許損失部分可用性,但不等於系統不可用。例如犧牲部分響應時間、以及功能上的損失(高峰期,屏蔽一些功能使得服務降級)
-
軟狀態(Soft state)
與硬狀態相對,即是指允許系統中的數據存在中間狀態,並認為該中間狀態的存在不會影響系統的整體可用性,即允許系統在不同節點的數據副本之間進行數據同步的過程存在延時。
-
強調系統中所有的數據副本,在經過一段時間的同步后,最終能夠達到一個一致的狀態。其本質是需要系統保證最終數據能夠達到一致,而不需要實時保證系統數據的強一致性。
可以看出BASE定理是通過弱化一致性來獲得可用性,它允許數據在一段時間內是不一致的,但通過一定的時間最終達到一致狀態。