上億級並發的Redis緩存應該如何設計

本文轉載自查看原文 2021-07-08 11:44 178 高並發/ 架構/ redis

緩存設計可謂老生常談了，早些時候都是采用memcache，現在大家更多傾向使用redis，除了知曉常用的數據存儲類型，結合業務場景有針對性選擇，好像其他也沒有什么大的難點。

工程中引入Redis Client二方包，初始化一個Bean實例RedisTemplate ，一切搞定，so easy。

如果是幾十、幾百並發的業務場景，緩存設計可能並不需要考慮那么多，但如果是億級的系統呢？

首先，先了解緩存知識圖譜

早期的緩存用於加速CPU數據交換的RAM。隨着互聯網的快速發展，緩存的應用更加寬泛，用於數據高速交換的存儲介質都稱之為緩存。

使用緩存時，我們要關注哪些指標？緩存有哪些應用模式？以及緩存設計時有哪些Tip技巧？一圖勝千言，如下：

七大經典問題

緩存在使用過程不可避免會遇到一些問題，對於高頻的問題我們大概歸為了7類。具體內容下面我們一一道來

1、緩存集中失效

當業務系統查詢數據時，首先會查詢緩存，如果緩存中數據不存在，然后查詢DB再將數據預熱到Cache中，並返回。緩存的性能比 DB 高 50~100 倍以上。

很多業務場景，如：秒殺商品、微博熱搜排行、或者一些活動數據，都是通過跑任務方式，將DB數據批量、集中預熱到緩存中，緩存數據有着近乎相同的過期時間。

當過這批數據過期時，會一起過期，此時，對這批數據的所有請求，都會出現緩存失效，從而將壓力轉嫁到DB，DB的請求量激增，壓力變大，響應開始變慢。

那么有沒有解呢？

當然有了。

我們可以從緩存的過期時間入口，將原來的固定過期時間，調整為過期時間=基礎時間+隨機時間，讓緩存慢慢過期，避免瞬間全部過期，對DB產生過大壓力。

2、緩存穿透

不是所有的請求都能查到數據，不論是從緩存中還是DB中。

假如黑客攻擊了一個論壇，用了一堆肉雞訪問一個不存的帖子id。按照常規思路，每次都會先查緩存，緩存中沒有，接着又查DB，同樣也沒有，此時不會預熱到Cache中，導致每次查詢，都會cache miss。

由於DB的吞吐性能較差，會嚴重影響系統的性能，甚至影響正常用戶的訪問。

解決方案：

方案一：查存DB 時，如果數據不存在，預熱一個特殊空值到緩存中。這樣，后續查詢都會命中緩存，但是要對特殊值，解析處理。
方案二：構造一個BloomFilter過濾器，初始化全量數據，當接到請求時，在BloomFilter中判斷這個key是否存在，如果不存在，直接返回即可，無需再查詢緩存和DB

3、緩存雪崩

緩存雪崩是指部分緩存節點不可用，進而導致整個緩存體系甚至服務系統不可用的情況。

分布式緩存設計一般選擇一致性Hash，當有部分節點異常時，采用 rehash 策略，即把異常節點請求平均分散到其他緩存節點。但是，當較大的流量洪峰到來時，如果大流量 key 比較集中，正好在某 1～2 個緩存節點，很容易將這些緩存節點的內存、網卡過載，緩存節點異常 Crash，然后這些異常節點下線，這些大流量 key 請求又被 rehash 到其他緩存節點，進而導致其他緩存節點也被過載 Crash，緩存異常持續擴散，最終導致整個緩存體系異常，無法對外提供服務。

解決方案：

方案一：增加實時監控，及時預警。通過機器替換、各種故障自動轉移策略，快速恢復緩存對外的服務能力
方案二：緩存增加多個副本，當緩存異常時，再讀取其他緩存副本。為了保證副本的可用性，盡量將多個緩存副本部署在不同機架上，降低風險。

4、緩存熱點

對於突發事件，大量用戶同時去訪問熱點信息，這個突發熱點信息所在的緩存節點就很容易出現過載和卡頓現象，甚至 Crash，我們稱之為緩存熱點。

這個在新浪微博經常遇到，某大V明星出軌、結婚、離婚，瞬間引發數百千萬的吃瓜群眾圍觀，訪問同一個key，流量集中打在一個緩存節點機器，很容易打爆網卡、帶寬、CPU的上限，最終導致緩存不可用。

解決方案：

首先能先找到這個熱key來，比如通過Spark實時流分析，及時發現新的熱點key。
將集中化流量打散，避免一個緩存節點過載。由於只有一個key，我們可以在key的后面拼上有序編號，比如key#01、key#02。。。key#10多個副本，這些加工后的key位於多個緩存節點上。
每次請求時，客戶端隨機訪問一個即可

可以設計一個緩存服務治理管理后台，實時監控緩存的SLA，並打通分布式配置中心，對於一些hot key可以快速、動態擴容。

5、緩存大Key

當訪問緩存時，如果key對應的value過大，讀寫、加載很容易超時，容易引發網絡擁堵。另外緩存的字段較多時，每個字段的變更都會引發緩存數據的變更，頻繁的讀寫，導致慢查詢。如果大key過期被緩存淘汰失效，預熱數據要花費較多的時間，也會導致慢查詢。

所以我們在設計緩存的時候，要注意緩存的粒度，既不能過大，如果過大很容易導致網絡擁堵；也不能過小，如果太小，查詢頻率會很高，每次請求都要查詢多次。

解決方案：

方案一：設置一個閾值，當value的長度超過閾值時，對內容啟動壓縮，降低kv的大小
方案二：評估大key所占的比例，由於很多框架采用池化技術，如：Memcache，可以預先分配大對象空間。真正業務請求時，直接拿來即用。
方案三：顆粒划分，將大key拆分為多個小key，獨立維護，成本會降低不少
方案四：大key要設置合理的過期時間，盡量不淘汰那些大key

6、緩存數據一致性

緩存是用來加速的，一般不會持久化儲存。所以，一份數據通常會存在DB和緩存中，由此會帶來一個問題，如何保證這兩者的數據一致性。另外，緩存熱點問題會引入多個副本備份，也可能會發生不一致現象。

查看完整全文：http://www.golang.ren/article/7142

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 Redis 如何存儲上億級別的用戶狀態？上億數據怎么做到毫秒級查詢以及響應的？ Mysql 上億級數據導入Hive思路分享上億數據如何查億級流量電商詳情頁系統的大型高並發與高可用緩存架構億級流量系統架構之如何設計每秒十萬查詢的高並發架構億級數據的高並發通用搜索引擎架構設計 Netty Redis 億級流量高並發實戰（長文修正版）億級流量場景下，大型緩存架構設計實現【1】單個表上億行數據的主鍵、索引設計，及分頁查詢