大型網站架構系列：緩存在分布式系統中的應用（三）

本文轉載自查看原文 2016-06-19 11:06 13943 大型分布式網站架構

本文是《緩存在分布式系統中的應用》第三篇文章。

上次主要給大家分享了，緩存在分布式系統中的應用，主要從不同的場景，介紹了CDN，反向代理，分布式緩存，本地緩存的常規架構和基本原理。

因為時間關於，原計划分享《緩存常見問題》的內容，沒有講。本次主要針對緩存的常見個問題，做一個介紹。主要有以下議題：

一、分享大綱

分享大綱
數據一致性
緩存高可用
緩存雪崩
緩存穿透
參考資料
分享總結

二、數據一致性

緩存是在數據持久化之前的一個節點，主要是將熱點數據放到離用戶最近或訪問速度更快的介質中，加快數據的訪問，減小響應時間。

因為緩存屬於持久化數據的一個副本，因此不可避免的會出現數據不一致問題。導致臟讀或讀不到數據的情況。數據不一致，一般是因為網絡不穩定或節點故障導致。根據數據的操作順序，主要有以下幾種情況。

2.1場景介紹

（1）先寫緩存，再寫數據庫

如下圖：

假如緩存寫成功，但寫數據庫失敗或響應延遲，則下次讀取（並發讀）緩存時，就出現臟讀；

（2）先寫數據庫，再寫緩存

如下圖：

假如寫數據庫成功，但寫緩存失敗，則下次讀取（並發讀）緩存時，則讀不到數據；

（3）緩存異步刷新

指數據庫操作和寫緩存不在一個操作步驟中，比如在分布式場景下，無法做到同時寫緩存或需要異步刷新（補救措施）時候。

此種情況，主要考慮數據寫入和緩存刷新的時效性。比如多久內刷新緩存，不影響用戶對數據的訪問。

2.2解決方法

第一個場景：

這個寫緩存的方式，本身就是錯誤的，需要改為先寫持久化介質，再寫緩存的方式。

第二個場景：

（1）根據寫入緩存的響應來進行判斷，如果緩存寫入失敗，則回滾數據庫操作；此種方法增加了程序的復雜度，不建議采用；

（2）緩存使用時，假如讀緩存失敗，先讀數據庫，再回寫緩存的方式實現。

第三個場景：

（1）首先確定，哪些數據適合此類場景；

（2）根據經驗值確定合理的數據不一致時間，用戶數據刷新的時間間隔；

2.3 其他方法

（1）超時：設置合理的超時時間；

（2）刷新：定時刷新一定范圍內（根據時間，版本號）的數據；

以上是簡化數據讀寫場景，實際中會分為：

（1）緩存與數據庫之間的一致性；

（2）多級緩存之前的一致性；

（3）緩存副本之前的一致性。

三、緩存高可用

業界有兩種理論，第一套緩存就是緩存，臨時存儲數據的，不需要高可用。第二種緩存逐步演化為重要的存儲介質，需要做高可用。

本人的看法是，緩存是否高可用，需要根據實際的場景而定。臨界點是是否對后端的數據庫造成影響。

具體的決策依據需要根據，集群的規模（數據，緩存），成本（服務器，運維），系統性能（並發量，吞吐量，響應時間）等方面綜合評價。

3.1解決方法

緩存的高可用，一般通過分布式和復制實現。分布式實現數據的海量緩存，復制實現緩存數據節點的高可用。架構圖如下：

其中，分布式采用一致性Hash算法，復制采用異步復制。

3.2其他方法

（1）復制雙寫：緩存節點的復制，由異步改為雙寫，只有兩份都寫成功，才算成功。

（2）虛擬層：一致性Hash存在，假如其中一個HASH環不可用，數據會寫入臨近的環，當HASH可用時，數據又寫入正常的HASH環，會導致數據偏移問題。這種情況，可以考慮在HASH環前面加一個虛擬層實現。

（3）多級緩存：比如一級使用本地緩存，二級采用分布式Cahce，三級采用分布式Cache+本地持久化；

方式很多，需要根據業務場景靈活選擇。

四、緩存雪崩

雪崩是指當大量緩存失效時，導致大量的請求訪問數據庫，導致數據庫服務器，無法抗住請求或掛掉的情況。

解決方法：

（1）合理規划緩存的失效時間；

（2）合理評估數據庫的負載壓力；

（3）對數據庫進行過載保護或應用層限流；

（4）多級緩存設計，緩存高可用；

五、緩存穿透

緩存一般是Key，value方式存在，當某一個Key不存在時會查詢數據庫，假如這個Key，一直不存在，則會頻繁的請求數據庫，對數據庫造成訪問壓力。

解決方法：

（1）對結果為空的數據也進行緩存，當此key有數據后，清理緩存；

（2）一定不存在的key，采用布隆過濾器，建立一個大的Bitmap中，查詢時通過該bitmap過濾；

六、參考資料

以下是本次分享參考的資料和推薦大家參考的資料。

MemCache超詳細解讀：http://www.mamicode.com/info-detail-1120932.html

緩存與數據庫一致性保證：http://www.36dsj.com/archives/43950

HASH環和虛擬節點：http://www.111cn.net/sys/linux/58748.htm

讓memcached分布式：http://blog.csdn.net/cutesource/article/details/5848253

七、分享總結

以上是本周的分享，主要講解了緩存常見的問題，包括數據一致性，緩存高可用，緩存雪崩，緩存穿透等知識。

我們的分享只是介紹一下知識結構，希望可以起到一個拋磚引玉的作用。因為，每個知識點都有一些細化的地方，需要學習的知識點很多，需要大家不斷深入學習。也歡迎大家把好的內容，即時的分享到群內（知識鏈接或參加周知識分享，參加周知識分享的同學可以直接聯系我哈~~）

下次分享《分布式系統服務化架構（一）》，2016年6月26日。

本次是分享規則調整后的第一次，歡迎大家積極提出問題。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 大型網站架構系列：緩存在分布式系統中的應用（一）大型網站架構系列：緩存在分布式系統中的應用（二）大型分布式系統中的緩存架構【分布式】Zookeeper在大型分布式系統中的應用緩存在大型網站架構中的應用基於WCF大型分布式系統的架構設計大型網站架構系列：分布式消息隊列（一）分布式系統緩存系列之guava cache 我也要談談大型網站架構之系列（4）——分布式中的異步通信分布式系統與架構