前言
我們將先從Redis、Nginx+Lua等技術點出發,了解緩存應用的場景。通過使用緩存相關技術,解決高並發的業務場景案例,來深入理解一套成熟的企業級緩存架構如何設計的。本文Redis部分總結於蔣德鈞老師的《Redis核心技術與實戰》。
Redis基礎
簡介
Redis是一個開源的使用ANSI C語言編寫、遵守BSD協議、支持網絡、可基於內存亦可持久化的日志型、Key-Value數據庫,並提供多種語言的API。
它通常被稱為數據結構服務器,因為值(value)可以是 字符串(String), 哈希(Hash), 列表(list), 集合(sets) 和 有序集合(sorted sets)等類型。
Redis 與其他 key - value 緩存產品有以下三個特點:
- Redis支持數據的持久化,可以將內存中的數據保存在磁盤中,重啟的時候可以再次加載進行使用。
- Redis不僅僅支持簡單的key-value類型的數據,同時還提供list,set,zset,hash等數據結構的存儲。
- Redis支持數據的備份,即master-slave模式的數據備份。
優勢
- 性能極高 – Redis能讀的速度是110000次/s,寫的速度是81000次/s 。
- 豐富的數據類型 – Redis支持二進制案例的 Strings, Lists, Hashes, Sets 及 Ordered Sets 數據類型操作。
- 原子 – Redis的所有操作都是原子性的,意思就是要么成功執行要么失敗完全不執行。單個操作是原子性的。多個操作也支持事務,即原子性,通過MULTI和EXEC指令包起來。
- 豐富的特性 – Redis還支持 publish/subscribe, 通知, key 過期等等特性。
數據類型
String(字符串)
string 是 redis 最基本的類型,你可以理解成與 Memcached 一模一樣的類型,一個 key 對應一個 value。
string 類型是二進制安全的。意思是 redis 的 string 可以包含任何數據。比如jpg圖片或者序列化的對象。
string 類型是 Redis 最基本的數據類型,string 類型的值最大能存儲 512MB。
redis 127.0.0.1:6379> SET runoob "laowang"
OK
redis 127.0.0.1:6379> GET runoob
"laowang"
Hash(哈希)
Redis hash 是一個鍵值(key=>value)對集合。
Redis hash 是一個 string 類型的 field 和 value 的映射表,hash 特別適合用於存儲對象。
每個 hash 可以存儲 2^32 -1 鍵值對(40多億)。
redis 127.0.0.1:6379> HMSET runoob field1 "Hello" field2 "World"
"OK"
redis 127.0.0.1:6379> HGET runoob field1
"Hello"
redis 127.0.0.1:6379> HGET runoob field2
"World"
List(列表)
Redis 列表是簡單的字符串列表,按照插入順序排序。你可以添加一個元素到列表的頭部(左邊)或者尾部(右邊)。
列表最多可存儲 2^32 - 1 元素 (4294967295, 每個列表可存儲40多億)。
redis 127.0.0.1:6379> lpush runoob redis
(integer) 1
redis 127.0.0.1:6379> lpush runoob mongodb
(integer) 2
redis 127.0.0.1:6379> lpush runoob rabitmq
(integer) 3
redis 127.0.0.1:6379> lrange runoob 0 10
1) "rabitmq"
2) "mongodb"
3) "redis"
Set(集合)
Redis 的 Set 是 string 類型的無序集合。
集合是通過哈希表實現的,所以添加,刪除,查找的復雜度都是 O(1)。
sadd 命令 :添加一個 string 元素到 key 對應的 set 集合中,成功返回 1,如果元素已經在集合中返回 0。
集合中最大的成員數為 2^32 - 1(4294967295, 每個集合可存儲40多億個成員)。
redis 127.0.0.1:6379> DEL runoob
redis 127.0.0.1:6379> sadd runoob redis
(integer) 1
redis 127.0.0.1:6379> sadd runoob mongodb
(integer) 1
redis 127.0.0.1:6379> sadd runoob rabitmq
(integer) 1
redis 127.0.0.1:6379> sadd runoob rabitmq
(integer) 0
redis 127.0.0.1:6379> smembers runoob
1) "redis"
2) "rabitmq"
3) "mongodb"
zset(sorted set:有序集合)
Redis zset 和 set 一樣也是string類型元素的集合,且不允許重復的成員。
不同的是每個元素都會關聯一個double類型的分數。redis正是通過分數來為集合中的成員進行從小到大的排序。
zset的成員是唯一的,但分數(score)卻可以重復。
zadd 命令 :添加元素到集合,元素在集合中存在則更新對應score
redis 127.0.0.1:6379> zadd runoob 0 redis
(integer) 1
redis 127.0.0.1:6379> zadd runoob 0 mongodb
(integer) 1
redis 127.0.0.1:6379> zadd runoob 0 rabitmq
(integer) 1
redis 127.0.0.1:6379> zadd runoob 0 rabitmq
(integer) 0
redis 127.0.0.1:6379> > ZRANGEBYSCORE runoob 0 1000
1) "mongodb"
2) "rabitmq"
3) "redis"
Redis深入:帶着問題出發?
如果讓你設計一個KV數據庫,該如何設計
對這個問題的思考,將有助於我們從整體架構上去學習Redis。
假設現在我們已經設計好了一個KV數據庫,首先如果我們要使用,是不是得有入口,我們是通過動態鏈接庫還是通過網絡socket對外提供訪問入口,這就涉及到了訪問模塊。Redis就是通過
通過訪問模塊訪問KV數據庫之后,我們的數據存儲在哪里?為了保證訪問的高性能,我們選在存儲在內存中,這又需要有存儲模塊。存在內存中的數據,雖然訪問速度快,但存在的的問題就是斷電后,無法恢復數據,所以我們還需要支持持久化操作。
有了存儲模塊,我們還需要考慮,數據是以什么樣的形式存儲?怎樣設計才能讓數據操作更優,這就設計到了,數據類型的支持,索引模塊。 索引的作用是讓鍵值數據庫根據 key 找到相應 value 的存儲位置,進而執行操作。
有了以上模塊的只是,我們是不是要對數據進行操作了?比如往KV數據庫中插入或更新一條數據,刪除和查詢,這就是需要有操作模塊了。
至此我們已經構造除了一個KV數據庫的基本框架了,帶着這些架構,我們再深入到每個點中去探究,這樣就會輕松很多,不會迷失在末枝細節中了。
Redis為什么那么快
我們都知道Redis訪問快,這是因為redis的操作都是在內存上的,內存的訪問本身就很快,另外Redis底層的數據結構也對“快”起到了至關重要的作用。
我們平常所以所說Redis的5種數據結構:String、Hash、Set、ZSet和List指的只是鍵值對中值的數據結構,而我這里所說的數據結構,指的是它們底層實現。
Redis的底層數據結構有:簡單動態字符串、整數數組、壓縮列表、跳表、hash表、雙向列表6種。
簡單動態數組:就是String的底層實現
其中整數數組、hash表、雙向列表都是我們常見的數據結構
壓縮列表和跳表屬於特殊的數據結構
壓縮列表是Redis實現的特殊的數組:它本質就是一個數組,只不過,我們常見的數組的每個元素分配的空間大小是一致的,這樣就會導致有多余的內存空間被浪費了。壓縮列表就是為了解決這樣的問題,他的每個元素大小是按實際大小分配的,避免了內存的浪費,同時在壓縮列表的表頭還存了關於改列表的相關屬性:用於記錄列表個數zllen,表尾偏移量zltail和列表長度zlbytes。表尾還有一個zlend標記列表的結束。
跳表:有序鏈表查詢元素只能逐一查詢,跳表本質上就是鏈表的基礎上加了多級索引,通過多級索引的幾個跳轉,快遞定位到元素所在位置。
不同數據結構的查詢時間復雜度
上面從存儲方面解釋了,redis為什么快.
為什么用單線程
逆向思維可以說為什么不用多線程,這個我們得先看下多線程存在哪些問題?在正常應用操作中,使用多線程可以大大提高處理的時間。那是不是可以無限的加大線程數量,以獲取更快的處理速度?實際試驗后,發現在機器資源有限的情況下,不斷增加線程處理時間,並沒有像我們想象的那樣成線性增長,而是到達一定階段就趨於平衡,甚至有下降的趨勢,這是為什么呢?
其實主要有兩個方面,我們知道線程是CPU調度的最小單元,當線程多的時候,CPU需要不停的切換線程,線程切換是需要消耗時間的,當大量線程需要來回切換,那么CPU在這切換的損耗了很多時間。
另外當多個線程,需要對共享資源進行操作的時候,為了保證並發安全性,需要有額外的機制保證,比如加鎖。這樣就使得當多個線程再操作共享數據時,變成了串行。
所以為了避免這些問題,Redis采用了單線程操作數據。
單線程為什么還真這么快
我們知道Redis單線程操作的,但是只是指的Redis對外提供鍵值對存儲服務是單線程的。Redis的其他功能並不是,比如持久化,異步刪除,集群同步等,都是由額外的線程去執行的。
除了上面說的,Redis的大部分操作都是在內存上完成的,加上高效的數據結構,是他實現高性能的一方面。另外一方面Redis采用的多路復用機制,使其在網絡IO操作中能並發處理大量的客戶端請求。
在網絡 IO 操作中,有潛在的阻塞點,分別是 accept() 和 recv()。當 Redis 監聽到一個客戶端有連接請求,但一直未能成功建立起連接時,會阻塞在 accept() 函數這里,導致其他客戶端無法和 Redis 建立連接。類似的,當 Redis 通過 recv() 從一個客戶端讀取數據時,如果數據一直沒有到達,Redis 也會一直阻塞在 recv()。 這就導致 Redis 整個線程阻塞,無法處理其他客戶端請求,效率很低。不過,幸運的是,socket 網絡模型本身支持非阻塞模式。
Socket 網絡模型的非阻塞模式設置,主要體現在三個關鍵的函數調用上,如果想要使用 socket 非阻塞模式,就必須要了解這三個函數的調用返回類型和設置模式。接下來,我們就重點學習下它們。在 socket 模型中,不同操作調用后會返回不同的套接字類型。socket() 方法會返回主動套接字,然后調用 listen() 方法,將主動套接字轉化為監聽套接字,此時,可以監聽來自客戶端的連接請求。最后,調用 accept() 方法接收到達的客戶端連接,並返回已連接套接字。
針對監聽套接字,我們可以設置非阻塞模式:當 Redis 調用 accept() 但一直未有連接請求到達時,Redis 線程可以返回處理其他操作,而不用一直等待。但是,你要注意的是,調用 accept() 時,已經存在監聽套接字了。
類似的,我們也可以針對已連接套接字設置非阻塞模式:Redis 調用 recv() 后,如果已連接套接字上一直沒有數據到達,Redis 線程同樣可以返回處理其他操作。我們也需要有機制繼續監聽該已連接套接字,並在有數據達到時通知 Redis。這樣才能保證 Redis 線程,既不會像基本 IO 模型中一直在阻塞點等待,也不會導致 Redis 無法處理實際到達的連接請求或數據。
Linux 中的 IO 多路復用機制是指一個線程處理多個 IO 流,就是我們經常聽到的 select/epoll 機制。簡單來說,在 Redis 只運行單線程的情況下,該機制允許內核中,同時存在多個監聽套接字和已連接套接字。內核會一直監聽這些套接字上的連接請求或數據請求。一旦有請求到達,就會交給 Redis 線程處理,這就實現了一個 Redis 線程處理多個 IO 流的效果。為了在請求到達時能通知到 Redis 線程,select/epoll 提供了基於事件的回調機制,即針對不同事件的發生,調用相應的處理函數。
Redis是如何保證數據不丟失的
因為Redis是操作是基於內存的,所有一點系統宕機存在內存中的數據就會丟失,為了實現數據的持久化,Redis中存在兩個持久化機制AOF和RBD。
AOF(Append Only File)介紹
AOF的原理就是,通過記錄下Redis的所有命令操作,在需要數據恢復的時候,再按照順序把所有命令執行一次,從而恢復數據。
但跟數據庫的寫前日志不同的,AOF采用的寫后日志,也就是在Redis執行過操作之后,再寫入AOF日志。之所以為什么采用寫后日志,可以避免因為寫日志的占用redis調用的時間,另外為了保證Redis的高性能,在寫aof日志的時候,不會做校驗,若采用寫前日志,如果命令是錯誤非法的,在恢復數據的時候就會出現異常。采用寫后日志,只有命令執行成功的才會被保存。
AOF策略
AOF的執行策略有三種
all:每次寫入/刪除命令都會被寫入日志文件中,保證了數據可靠性,但是寫入日志,涉及到了磁盤的IO,必然會影響性能
everysec:每秒鍾執行一次日志寫入,在一秒之內的命令操作會記錄在aof內存緩沖區,每一秒會寫回到日志文件中,相對於每次寫入性能得以提升,但是在aof緩沖區沒有來得及回寫到日志文件中時,系統發生宕機就會丟失這部分數據。
no:內存緩沖區的命令記錄不會不主動寫回到日志文件中,而交給操作系統決定。這種策略性能最高,但是丟失數據的風險也最大。
AOF重寫機制
但是AOF文件過大,會帶來性能問題,所有AOF重寫機制就登場了。
AOF重寫的原理是,將多個命令對同一個key的操作合並成一個,因為數據恢復時,我們只要關心數據最后的狀態就可以了。
需要注意的是,與AOF日志由主線程寫回不同,重寫過程是由后台子線程bgwriteaof來完成的,這個避免阻塞主線程,導致數據庫性能下降。
每次 AOF 重寫時,Redis 會先執行一個內存拷貝,用於重寫;然后,使用兩個日志保證在重寫過程中,新寫入的數據不會丟失。而且,因為 Redis 采用額外的線程進行數據重寫,所以,這個過程並不會阻塞主線程。
內存快照RDB
RDB Redis DataBase
所謂內存快照,就是指內存中的數據在某一個時刻的狀態記錄。對 Redis 來說,就是把某一時刻的狀態以文件的形式寫到磁盤上。
Redis執行RDB的策略是什么?
Redis進行快照的時候,是進行全量的快照,並且為了不阻塞主線程,會默認使用bgsave命令創建一個子線程,專門用於寫入RDB文件。
快照期間數據還能修改嗎?
如果不能修改,那么在快照期間,這塊數據就會只能讀取不能修改,那么必然影響使用。如果可以修改,那么Redis是如何實現的?其實Redis是借助操作系統的寫時復制,在執行快照期間,讓修改的數據,會在內存中拷貝出一份副本,副本的數據可以被寫入rdb文件中,而主線程仍然可以修改原數據。
多久執行一次呢?
跟aof同樣的問題,如果快照頻率低,那么在兩次快照期間出現宕機,就會出現數據不完整的情況,如果快照頻率過快,那么又會出現兩個問題,一個是不停的對磁盤寫出,增大磁盤壓力,可能上一次寫入還沒完成,新的快照又來了,造成惡性循環.另外雖然執行快照是主線程fork出來的,但是不停的fork的過程是阻塞主線程的。
那么如何配置才合適呢?
其實我們只需要第一次全量快照,后續只快照有數據變動的地方就可以大大降低快照的資源損耗了,那么如何記錄這變動的數據呢,這里我們可以想到aof具有這樣的功能。Redis4.0就提使用RDB+AOF混合模式來完成Redis的持久化。簡單來說,內存快照以一定的頻率執行,在兩次快照之間,使用 AOF 日志記錄這期間的所有命令操作。
主從庫是如何實現數據一致的?
前面我們通過Redis的持久化機制,來保證服務器宕機之后,通過回放日志和重新讀取RDB文件恢復數據,減少數據丟失的風險。
但是在單台及其的情況下,機器發生宕機,就無法對外提供服務了。我們所說的Redis具有高可靠性,指的一是,數據盡量少丟失,之前持久化機制就解決了這一問題,另一個是服務盡量少中斷,Redis的做法是增加副本冗余量。Redis提供的主從模式,主從庫之間采用了讀寫分離的方式。
從庫只讀取,主庫執行讀與寫,寫的數據主庫會同步給從庫。之所以只讓主庫寫,是因為,如果從庫也寫,那么當客戶端對一個數據修改了3次,為了保證數據的正確性,就要設法讓主從庫對於寫操作協同,這會帶來巨額的開銷。
主從庫間如何進行第一次同步的?
當我們啟動多個 Redis 實例的時候,它們相互之間就可以通過 replicaof(Redis 5.0 之前使用 slaveof)命令形成主庫和從庫的關系,之后會按照三個階段完成數據的第一次同步。
主庫收到 psync 命令后,會用 FULLRESYNC 響應命令帶上兩個參數:主庫 runID 和主庫目前的復制進度 offset,返回給從庫。從庫收到響應后,會記錄下這兩個參數。
這里有個地方需要注意,FULLRESYNC 響應表示第一次復制采用的全量復制,也就是說,主庫會把當前所有的數據都復制給從庫。
在第二階段,主庫將所有數據同步給從庫。從庫收到數據后,在本地完成數據加載。這個過程依賴於內存快照生成的 RDB 文件。
具體來說,主庫執行 bgsave 命令,生成 RDB 文件,接着將文件發給從庫。從庫接收到 RDB 文件后,會先清空當前數據庫,然后加載 RDB 文件。這是因為從庫在通過 replicaof 命令開始和主庫同步前,可能保存了其他數據。為了避免之前數據的影響,從庫需要先把當前數據庫清空。
在主庫將數據同步給從庫的過程中,主庫不會被阻塞,仍然可以正常接收請求。否則,Redis 的服務就被中斷了。但是,這些請求中的寫操作並沒有記錄到剛剛生成的 RDB 文件中。為了保證主從庫的數據一致性,主庫會在內存中用專門的 replication buffer,記錄 RDB 文件生成后收到的所有寫操作。
最后,也就是第三個階段,主庫會把第二階段執行過程中新收到的寫命令,再發送給從庫。具體的操作是,當主庫完成 RDB 文件發送后,就會把此時 replication buffer 中的修改操作發給從庫,從庫再重新執行這些操作。這樣一來,主從庫就實現同步了。
Redis如何保證高可用的
主庫掛了之后,還能接收寫操作嗎?
Redis在有了主從集群后,如果從庫掛了,Redis對外提供服務不受影響,主庫和其他從庫,依然可以提供讀寫服務,但是當主庫掛了之后,因為是讀寫分離的,如果此時有寫的請求,那么就無法處理了。Redis是如果解決這樣的問題的呢,這就要引入哨兵機制了。
當主庫掛了,我們需要從從庫中選出一個當做主庫,這樣就可以正常對外提供服務了。哨兵的本質就是一個Redis示例,只不過它是運行在特殊模式下的Redis進程。它主要有三個作用:監控、選舉、通知。
哨兵在監控到主庫下線的時候,會從從庫中通過一定的規則,選舉出適合的從庫當主庫,並通知其他從庫變更主庫的信息,讓他們執行replicaof命令,和新主庫建立連接,並進行數據復制。那么具體每一步都是怎么做的呢?
監控:哨兵會周期性向主從庫發送PING命令,檢測主庫是否正常運行,如果主從庫沒有在規定的時間內回應哨兵的PING命令,則會被判定為“下線狀態”,如果是主庫下線,則開始自動切換主庫的流程。但是一般如果只有一個哨兵,那么它的判斷可能不具有可靠性,所以一般哨兵都是采用集群模式部署,稱為哨兵集群。單多個哨兵均判斷該主庫下線了,那么可能他就真的下線了,這是一個少數服從多數的規則。
選舉: 哨兵選擇新主庫的過程稱為“篩選 + 打分”。簡單來說,我們在多個從庫中,先按照一定的篩選條件,把不符合條件的從庫去掉。然后,我們再按照一定的規則,給剩下的從庫逐個打分,將得分最高的從庫選為新主庫,如下圖所示:
1、排除那些已經下線的從庫,以及連接不穩定的從庫。連接不穩定是通過配置項down-after-milliseconds,當主從連接超時達到一定閾值,就會被記錄下來,比如設置的10次,那么就會標記該從庫網絡不好,不適合做為主庫。
2、篩選出從庫后,第二部就要開始打分了,主要從三方面打分,
1.從庫優先級,這是可以通過slave-property設置的,設置的高,打分的就高,就會被選為主庫,比如你可以給從庫中內存帶寬資源充足設置高優先級,當主庫掛了之后被優先選舉為主庫。
2.從庫與舊主庫之間的復制進度,之前我們知道主從之間增量復制,有個參數slave-repl-offset記錄當前的復制進度。這個數值越大,說明與主庫復制進度約靠近,打分也會越高。
3.每個從庫創建實例的時候,會隨機生成一個id,id越小的得分越高。
通知:哨兵提升一個從庫為新主庫后,哨兵會把新主庫的地址寫入自己實例的pubsub(switch-master)中。客戶端需要訂閱這個pubsub,當這個pubsub有數據時,客戶端就能感知到主庫發生變更,同時可以拿到最新的主庫地址,然后把寫請求寫到這個新主庫即可,這種機制屬於哨兵主動通知客戶端。
如果客戶端因為某些原因錯過了哨兵的通知,或者哨兵通知后客戶端處理失敗了,安全起見,客戶端也需要支持主動去獲取最新主從的地址進行訪問。
所以,客戶端需要訪問主從庫時,不能直接寫死主從庫的地址了,而是需要從哨兵集群中獲取最新的地址(sentinel get-master-addr-by-name命令),這樣當實例異常時,哨兵切換后或者客戶端斷開重連,都可以從哨兵集群中拿到最新的實例地址。
哨兵集群
部署哨兵集群的時候,我們知道只需要配置:sentinel monitor
Redis有提供了pub/sub機制,哨兵跟主庫建立了連接之后,將自己的信息發布到 “sentinel:hello”頻道上,其他哨兵發布並訂閱了該頻道,就可以獲取其他哨兵的信息,那么哨兵之間就可以相互通信了。
那么哨兵如何知道從庫的連接信息呢,那是因為INFO命令,哨兵向主庫發送該命令后,獲得了所有從庫的連接信息,就能分從庫建立連接,並進行監控了。
從本質上說,哨兵就是一個運行在特定模式下的 Redis 實例,只不過它並不服務請求操作,只是完成監控、選主和通知的任務。所以,每個哨兵實例也提供 pub/sub 機制,客戶端可以從哨兵訂閱消息。哨兵提供的消息訂閱頻道有很多,不同頻道包含了主從庫切換過程中的不同關鍵事件。
切片集群
與mysql一樣,當一張表的數據很大時,查詢耗時可能就會越來越大,我們采取的措施是分表分庫。同樣的Redis也樣,當數據量很大時,比如高達25G,在單分片下,我們需要機器有32G的內存。但是我們會發現,有時候redis響應會變的很慢,通過INFO查詢Redis的latest_fork_usec指標,最近fork耗時,發現耗時很大,快到秒級別了,fork這個動作會阻塞主線程,於是就導致了Redis變慢了。
於是就有redis分片集群, 啟動多個 Redis 實例組成一個集群,然后按照一定的規則,把收到的數據划分成多份,每一份用一個實例來保存。回到我們剛剛的場景中,如果把 25GB 的數據平均分成 5 份(當然,也可以不做均分),使用 5 個實例來保存,每個實例只需要保存 5GB 數據。
那么,在切片集群中,實例在為 5GB 數據生成 RDB 時,數據量就小了很多,fork 子進程一般不會給主線程帶來較長時間的阻塞。采用多個實例保存數據切片后,我們既能保存 25GB 數據,又避免了 fork 子進程阻塞主線程而導致的響應突然變慢。
那么數據是如何決定存在在哪個分片上的呢?
Redis Cluster 方案采用哈希槽(Hash Slot,接下來我會直接稱之為 Slot),來處理數據和實例之間的映射關系。在 Redis Cluster 方案中,一個切片集群共有 16384 個哈希槽,這些哈希槽類似於數據分區,每個鍵值對都會根據它的 key,被映射到一個哈希槽中。具體的映射過程分為兩大步:首先根據鍵值對的 key,按照CRC16 算法計算一個 16 bit 的值;然后,再用這個 16bit 值對 16384 取模,得到 0~16383 范圍內的模數,每個模數代表一個相應編號的哈希槽。
我們在部署 Redis Cluster 方案時,可以使用 cluster create 命令創建集群,此時,Redis 會自動把這些槽平均分布在集群實例上。例如,如果集群中有 N 個實例,那么,每個實例上的槽個數為 16384/N 個。 也可以使用 cluster meet 命令手動建立實例間的連接,形成集群,再使用 cluster addslots 命令,指定每個實例上的哈希槽個數。