上億級並發的Redis緩存應該如何設計


緩存設計可謂老生常談了,早些時候都是采用memcache,現在大家更多傾向使用redis,除了知曉常用的數據存儲類型,結合業務場景有針對性選擇,好像其他也沒有什么大的難點。

工程中引入Redis Client二方包,初始化一個Bean實例RedisTemplate ,一切搞定,so easy。

如果是幾十、幾百並發的業務場景,緩存設計可能並不需要考慮那么多,但如果是億級的系統呢?

首先,先了解緩存知識圖譜

早期的緩存用於加速CPU數據交換的RAM。隨着互聯網的快速發展,緩存的應用更加寬泛,用於數據高速交換的存儲介質都稱之為緩存。

使用緩存時,我們要關注哪些指標?緩存有哪些應用模式?以及緩存設計時有哪些Tip技巧?一圖勝千言,如下:

七大經典問題

緩存在使用過程不可避免會遇到一些問題,對於高頻的問題我們大概歸為了7類。具體內容下面我們一一道來

1、緩存集中失效

當業務系統查詢數據時,首先會查詢緩存,如果緩存中數據不存在,然后查詢DB再將數據預熱到Cache中,並返回。緩存的性能比 DB 高 50~100 倍以上。

很多業務場景,如:秒殺商品、微博熱搜排行、或者一些活動數據,都是通過跑任務方式,將DB數據批量、集中預熱到緩存中,緩存數據有着近乎相同的過期時間

當過這批數據過期時,會一起過期,此時,對這批數據的所有請求,都會出現緩存失效,從而將壓力轉嫁到DB,DB的請求量激增,壓力變大,響應開始變慢。

那么有沒有解呢?

當然有了。

我們可以從緩存的過期時間入口,將原來的固定過期時間,調整為過期時間=基礎時間+隨機時間,讓緩存慢慢過期,避免瞬間全部過期,對DB產生過大壓力。

2、緩存穿透

不是所有的請求都能查到數據,不論是從緩存中還是DB中。

假如黑客攻擊了一個論壇,用了一堆肉雞訪問一個不存的帖子id。按照常規思路,每次都會先查緩存,緩存中沒有,接着又查DB,同樣也沒有,此時不會預熱到Cache中,導致每次查詢,都會cache miss

由於DB的吞吐性能較差,會嚴重影響系統的性能,甚至影響正常用戶的訪問。

解決方案:

  • 方案一:查存DB 時,如果數據不存在,預熱一個特殊空值到緩存中。這樣,后續查詢都會命中緩存,但是要對特殊值,解析處理。
  • 方案二:構造一個BloomFilter過濾器,初始化全量數據,當接到請求時,在BloomFilter中判斷這個key是否存在,如果不存在,直接返回即可,無需再查詢緩存和DB

3、緩存雪崩

緩存雪崩是指部分緩存節點不可用,進而導致整個緩存體系甚至服務系統不可用的情況。

分布式緩存設計一般選擇一致性Hash,當有部分節點異常時,采用 rehash 策略,即把異常節點請求平均分散到其他緩存節點。但是,當較大的流量洪峰到來時,如果大流量 key 比較集中,正好在某 1~2 個緩存節點,很容易將這些緩存節點的內存、網卡過載,緩存節點異常 Crash,然后這些異常節點下線,這些大流量 key 請求又被 rehash 到其他緩存節點,進而導致其他緩存節點也被過載 Crash,緩存異常持續擴散,最終導致整個緩存體系異常,無法對外提供服務。

解決方案:

  • 方案一:增加實時監控,及時預警。通過機器替換、各種故障自動轉移策略,快速恢復緩存對外的服務能力
  • 方案二:緩存增加多個副本,當緩存異常時,再讀取其他緩存副本。為了保證副本的可用性,盡量將多個緩存副本部署在不同機架上,降低風險。

4、緩存熱點

對於突發事件,大量用戶同時去訪問熱點信息,這個突發熱點信息所在的緩存節點就很容易出現過載和卡頓現象,甚至 Crash,我們稱之為緩存熱點。

這個在新浪微博經常遇到,某大V明星出軌、結婚、離婚,瞬間引發數百千萬的吃瓜群眾圍觀,訪問同一個key,流量集中打在一個緩存節點機器,很容易打爆網卡、帶寬、CPU的上限,最終導致緩存不可用。

解決方案:

  • 首先能先找到這個熱key來,比如通過Spark實時流分析,及時發現新的熱點key。
  • 將集中化流量打散,避免一個緩存節點過載。由於只有一個key,我們可以在key的后面拼上有序編號,比如key#01key#02。。。key#10多個副本,這些加工后的key位於多個緩存節點上。
  • 每次請求時,客戶端隨機訪問一個即可

可以設計一個緩存服務治理管理后台,實時監控緩存的SLA,並打通分布式配置中心,對於一些hot key可以快速、動態擴容。

5、緩存大Key

當訪問緩存時,如果key對應的value過大,讀寫、加載很容易超時,容易引發網絡擁堵。另外緩存的字段較多時,每個字段的變更都會引發緩存數據的變更,頻繁的讀寫,導致慢查詢。如果大key過期被緩存淘汰失效,預熱數據要花費較多的時間,也會導致慢查詢。

所以我們在設計緩存的時候,要注意緩存的粒度,既不能過大,如果過大很容易導致網絡擁堵;也不能過小,如果太小,查詢頻率會很高,每次請求都要查詢多次。

解決方案:

  • 方案一:設置一個閾值,當value的長度超過閾值時,對內容啟動壓縮,降低kv的大小
  • 方案二:評估大key所占的比例,由於很多框架采用池化技術,如:Memcache,可以預先分配大對象空間。真正業務請求時,直接拿來即用。
  • 方案三:顆粒划分,將大key拆分為多個小key,獨立維護,成本會降低不少
  • 方案四:大key要設置合理的過期時間,盡量不淘汰那些大key

6、緩存數據一致性

緩存是用來加速的,一般不會持久化儲存。所以,一份數據通常會存在DB緩存中,由此會帶來一個問題,如何保證這兩者的數據一致性。另外,緩存熱點問題會引入多個副本備份,也可能會發生不一致現象。

 

查看完整全文:http://www.golang.ren/article/7142


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM