分布式系統關注點(18)——「緩存穿透」和「緩存雪崩」到底啥區別？

本文轉載自查看原文 2019-04-25 09:13 986 緩存設計/ 分布式系統/ 緩存/ 分布式緩存/ 分布式

如果第二次看到我的文章，歡迎右側掃碼訂閱我喲~ 👉

本文長度為2805字，建議閱讀8分鍾。

堅持原創，每一篇都是用心之作～

有句話說得好，欲要使其毀滅，先要使其瘋狂。當你沉浸在緩存所帶來的系統tps飆升的喜悅中時，使你系統毀滅的種子也已經埋在其中。

而且，你所承載的tps越高，它所帶來的毀滅性更大。

在前兩篇《360°全方位解讀「緩存」》和《先寫DB還是「緩存」？》中，我們已經對緩存有了一定的認識，並且知道了關於緩存相關的「一致性」問題的最佳實踐。

這次，我們就來聊聊隱藏在緩存中的毀滅性種子是什么？

我們從前一篇文章《先寫DB還是「緩存」？》中多次提到的「cache miss」說起。

緩存雪崩

在前一篇文章《先寫DB還是「緩存」？》中，我們多次提到了「cache miss」這個詞，利用「cache miss」來更好的保障DB和緩存之間的數據一致性。

然而，任何事物都是有兩面性的，「cache miss」在提供便利的同時，也帶來了一個潛在風險。

這個風險就是「緩存雪崩」。

在圖中的第二步，大量的請求並發進入，這里的一次「cache miss」就有可能導致產生「緩存雪崩」。

不過，雖然「cache miss」會產生「緩存雪崩」，但「緩存雪崩」並不僅僅產生於「cache miss」。

雪崩一詞源於「雪崩效應」，是指像「多米勒骨牌」這樣的級聯反應。前面沒頂住，導致影響后面，如此蔓延。（關於對應雪崩的方式參考之前的文章，文末放鏈接）

所以「緩存雪崩」的根本問題是：緩存由於某些原因未起到預期的緩沖效果，導致請求全部流轉到數據庫，造成數據庫壓力過重。

因此，流量激增、高並發下的緩存過期、甚至緩存系統宕機都有可能產生「緩存雪崩」問題。

怎么解決這個問題呢？宕機可以通過做高可用來解決（可以參考之前的文章，文末放鏈接）。而在“流量激增”、“高並發下的緩存過期”這兩種場景下，也有兩種方式可以來解決。

加鎖排隊

通過加鎖或者排隊機制來限制讀數據庫寫緩存的線程數量。比如，下面的偽代碼就是對某個key只允許一個線程進入的效果。

key = "aaa"；

var cacheValue = cache.read(key);
if (cacheValue != null) {
    return cacheValue;
}
else {
    lock(key) {
        cacheValue = cache.read(key);
        if (cacheValue != null) {
            return cacheValue;
        } 
        else {
            cacheValue = db.read(key);
            cache.set(key,cacheValue);
        }
    }
    return cacheValue;
}

這個比較好理解，就不廢話了。

緩存時間增加隨機值

這個主要針對的是「緩存定時過期」機制下的取巧方案。它的目的是避免多個緩存key在同一時間失效，導致壓力更加集中。

比如，你有10個key，他們的過期時間都是30分鍾的話，那么30分鍾后這10個key的所有請求會同時流到db去。

而這里說的這種方式就是將這10個key的過期時間打亂，比如設置成25、26、27、...、34分的過期時間，這樣壓力就被分散了，每分鍾只有一個key過期。

最簡單粗暴的方式就是在設置「過期時間」的時候加一個隨機數字。

cache.set(key,cacheValue,30+random())

總體來看，相比后者，前者的適用面更廣，所以Z哥建議你用「加鎖排隊」作為默認的通用方案不失為一個不錯的選擇。

「緩存穿透」、「緩存雪崩」傻傻分不清楚？

如果你聽說過「緩存穿透」的話，可能會問：「緩存雪崩」和「緩存穿透」一樣嗎？

從產生的效果上看是一樣的，但是過程不同。

來舉個例子。例子純屬虛構，別太在意合理性～

在一個方圓一萬里的地區內，只有一個修手機的老師傅。他收了一個徒弟，希望徒弟能幫他分擔掉一部分的工作壓力。這里的老師傅可以看作是DB，徒弟看作是緩存。

老師傅對徒弟說，如果遇到你不會做的事你來請教我。

然后，一個客戶過來說要修一下他的衛星電話，徒弟去請教老師傅，老師傅說他也不會，先拒絕了吧。

但是由於沒告訴他后續遇到修衛星電話的人該怎么做，所以后續這個客戶一直來問，徒弟每次都又去請教老師傅。最終，在修衛星電話這件事上，徒弟並沒有幫老師傅緩解任何的壓力，快被煩死了。

上面這個故事就好比「緩存穿透」。

而「緩存雪崩」則是，由於徒弟年輕力壯，精力充沛，1小時能修20個手機，老師傅只能修10個（但是手藝好，更考究）。

然后，有一天徒弟請假了，但恰巧這天來了2000個修手機的，老師傅修不過來就被累垮了。

所以，「緩存穿透」和「緩存雪崩」最終產生的效果是一樣的，就是因為大量請求流到DB后，把DB拖垮（正如前面故事中的老師傅）。

兩者最大的不同在於，「緩存雪崩」問題只要數據從db中找到並放入緩存就能恢復正常（徒弟休假歸來），而「緩存穿透」指的是所需的數據在DB中一直不存在的情況（老師傅也不會修）。並且，由於DB中數據不存在，所以自然每次從緩存中也找不到（徒弟也不會修）。

清楚了兩者的區別之后，我們下面就來聊聊「緩存穿透」的常見應對方式。

緩存穿透

「緩存穿透」有時也叫做「緩存擊穿」，產生的邏輯過程是這樣，一直在虛線范圍內流轉。

在這種場景下，緩存的作用完全失效，每次請求都“穿透”到了DB中。

可能你會想，為什么會存在大量的這種db中數據不存在的情況呢？其實，任何依賴外部參數進行查詢的地方都可能有這個問題的存在。比如，一個文本輸入框，本來是讓你輸入用戶名的，但是手誤輸入了密碼，自然就找不到數據咯。更主要的問題是，會有惡意分子利用這種機制來對你的系統進行攻擊，擊穿緩存搞垮你的數據庫，導致整個系統全面癱瘓。

同樣也有兩種方式來解決這個問題。

布隆過濾器（bloomfilter）

布隆過濾器就是由一個很長的二進制向量和一系列隨機映射函數組成，將確定不存在的數據構建到過濾器中，用它來過濾請求。這里就放個圖，具體就不展開了，后續我們再聊（有興趣的可以先到搜索引擎搜《Space time trade-offs in hash coding with allowable errors》找到bloom的原始論文）。

實現代碼其實並不很復雜，參考論文或者網上其他作者的一些實現就可以寫出來。

不過，布隆過濾器有一個最大的缺點，也是其為了高效利用內存而付出的代價，就是無法確保100%的准確率。

所以，如果你的場景要求是100%准確的，就只能用下面這種方式了。

緩存空對象

其實就是哪怕從db中取出的數據是“空（null）”，也把它丟失到緩存中。

這樣一來，雖然緩存中存在着一個value為空的數據，但是至少他能表示“數據庫里也沒有不用找了”。

其實這個思路和布隆過濾器有些類似，但是它對內存的消耗會大很多，畢竟布隆過濾器是利用的bit位來存儲。不過這種方式的優勢是前面提到的，不會出現誤差，而布隆過濾器的錯誤率會隨着「位數」的增加而減少，會不斷趨近於0，但不會為0。

總結

好了，我們一起總結一下。

這次呢，Z哥主要和你聊了隱藏在緩存中的兩顆具有“毀滅性”的種子，「緩存雪崩」和「緩存穿透」，以及應對這兩顆種子的常用方式。

而且，順便幫你區分清楚了「緩存雪崩」和「緩存穿透」的差異。

希望對你有所啟發。

作者：Zachary

出處：https://zacharyfan.com/archives/685.html

如果你喜歡這篇文章，可以點一下右下角的「推薦」。

這樣可以給我一點反饋。: )

謝謝你的舉手之勞。

▶關於作者：張帆（Zachary，個人微信號：Zachary-ZF）。堅持用心打磨每一篇高質量原創。歡迎掃描右側的二維碼~。

定期發表原創內容：架構設計丨分布式系統丨產品丨運營丨一些思考。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。