大型網站架構系列:緩存在分布式系統中的應用(三)


本文是《緩存在分布式系統中的應用》第三篇文章。

上次主要給大家分享了,緩存在分布式系統中的應用,主要從不同的場景,介紹了CDN,反向代理,分布式緩存,本地緩存的常規架構和基本原理。

因為時間關於,原計划分享《緩存常見問題》的內容,沒有講。本次主要針對緩存的常見個問題,做一個介紹。主要有以下議題:

一、分享大綱

  1. 分享大綱
  2. 數據一致性
  3. 緩存高可用
  4. 緩存雪崩
  5. 緩存穿透
  6. 參考資料
  7. 分享總結

二、數據一致性

緩存是在數據持久化之前的一個節點,主要是將熱點數據放到離用戶最近或訪問速度更快的介質中,加快數據的訪問,減小響應時間。

因為緩存屬於持久化數據的一個副本,因此不可避免的會出現數據不一致問題。導致臟讀或讀不到數據的情況。數據不一致,一般是因為網絡不穩定或節點故障導致。根據數據的操作順序,主要有以下幾種情況。

2.1場景介紹

(1)先寫緩存,再寫數據庫

         如下圖:

 

假如緩存寫成功,但寫數據庫失敗或響應延遲,則下次讀取(並發讀)緩存時,就出現臟讀;

 

(2)先寫數據庫,再寫緩存

         如下圖:

        

         假如寫數據庫成功,但寫緩存失敗,則下次讀取(並發讀)緩存時,則讀不到數據;

 

(3)緩存異步刷新

         指數據庫操作和寫緩存不在一個操作步驟中,比如在分布式場景下,無法做到同時寫緩存或需要異步刷新(補救措施)時候。

 

         此種情況,主要考慮數據寫入和緩存刷新的時效性。比如多久內刷新緩存,不影響用戶對數據的訪問。

2.2解決方法

第一個場景:

這個寫緩存的方式,本身就是錯誤的,需要改為先寫持久化介質,再寫緩存的方式。

第二個場景:

(1)根據寫入緩存的響應來進行判斷,如果緩存寫入失敗,則回滾數據庫操作;此種方法增加了程序的復雜度,不建議采用;

(2)緩存使用時,假如讀緩存失敗,先讀數據庫,再回寫緩存的方式實現。

第三個場景:

(1)首先確定,哪些數據適合此類場景;

(2)根據經驗值確定合理的數據不一致時間,用戶數據刷新的時間間隔;

2.3 其他方法

(1)超時:設置合理的超時時間;

(2)刷新:定時刷新一定范圍內(根據時間,版本號)的數據;

 

         以上是簡化數據讀寫場景,實際中會分為:

         (1)緩存與數據庫之間的一致性;

         (2)多級緩存之前的一致性;

         (3)緩存副本之前的一致性。

三、緩存高可用

業界有兩種理論,第一套緩存就是緩存,臨時存儲數據的,不需要高可用。第二種緩存逐步演化為重要的存儲介質,需要做高可用。

本人的看法是,緩存是否高可用,需要根據實際的場景而定。臨界點是是否對后端的數據庫造成影響。

具體的決策依據需要根據,集群的規模(數據,緩存),成本(服務器,運維),系統性能(並發量,吞吐量,響應時間)等方面綜合評價。

3.1解決方法

         緩存的高可用,一般通過分布式和復制實現。分布式實現數據的海量緩存,復制實現緩存數據節點的高可用。架構圖如下:

        

         其中,分布式采用一致性Hash算法,復制采用異步復制。

3.2其他方法

(1)復制雙寫:緩存節點的復制,由異步改為雙寫,只有兩份都寫成功,才算成功。

(2)虛擬層:一致性Hash存在,假如其中一個HASH環不可用,數據會寫入臨近的環,當HASH可用時,數據又寫入正常的HASH環,會導致數據偏移問題。這種情況,可以考慮在HASH環前面加一個虛擬層實現。

(3)多級緩存:比如一級使用本地緩存,二級采用分布式Cahce,三級采用分布式Cache+本地持久化;

 

         方式很多,需要根據業務場景靈活選擇。

四、緩存雪崩

         雪崩是指當大量緩存失效時,導致大量的請求訪問數據庫,導致數據庫服務器,無法抗住請求或掛掉的情況。

         解決方法:

         (1)合理規划緩存的失效時間;

         (2)合理評估數據庫的負載壓力;

         (3)對數據庫進行過載保護或應用層限流;

         (4)多級緩存設計,緩存高可用;

五、緩存穿透

         緩存一般是Key,value方式存在,當某一個Key不存在時會查詢數據庫,假如這個Key,一直不存在,則會頻繁的請求數據庫,對數據庫造成訪問壓力。

解決方法:

(1)對結果為空的數據也進行緩存,當此key有數據后,清理緩存;

(2)一定不存在的key,采用布隆過濾器,建立一個大的Bitmap中,查詢時通過該bitmap過濾;

六、參考資料

以下是本次分享參考的資料和推薦大家參考的資料。

 

MemCache超詳細解讀:http://www.mamicode.com/info-detail-1120932.html

緩存與數據庫一致性保證:http://www.36dsj.com/archives/43950

HASH環和虛擬節點:http://www.111cn.net/sys/linux/58748.htm

讓memcached分布式:http://blog.csdn.net/cutesource/article/details/5848253

七、分享總結

以上是本周的分享,主要講解了緩存常見的問題,包括數據一致性,緩存高可用,緩存雪崩,緩存穿透等知識。 

我們的分享只是介紹一下知識結構,希望可以起到一個拋磚引玉的作用。因為,每個知識點都有一些細化的地方,需要學習的知識點很多,需要大家不斷深入學習。也歡迎大家把好的內容,即時的分享到群內(知識鏈接或參加周知識分享,參加周知識分享的同學可以直接聯系我哈~~)

下次分享《分布式系統服務化架構(一)》,2016年6月26日。

本次是分享規則調整后的第一次,歡迎大家積極提出問題。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM