Redis為什么這么快以及持久化機制

本文轉載自查看原文 2019-12-28 15:02 790

1、首先我們談一下為什么Redis快：

一、 Redis是純內存數據庫，一般都是簡單的存取操作，線程占用的時間很多，時間的花費主要集中在IO上，所以讀取速度快。

二、再說一下IO，Redis使用的是非阻塞IO，IO多路復用，使用了單線程來輪詢描述符，將數據庫的開、關、讀、寫都轉換成了事件，減少了線程切換時上下文的切換和競爭。

多路 I/O 復用模型是利用select、poll、epoll可以同時監察多個流的 I/O 事件的能力，在空閑的時候，會把當前線程阻塞掉，當有一個或多個流有I/O事件時，就從阻塞態中喚醒，於是程序就會輪詢一遍所有的流（epoll是只輪詢那些真正發出了事件的流），並且只依次順序的處理就緒的流，這種做法就避免了大量的無用操作。這里“多路”指的是多個網絡連接，“復用”指的是復用同一個線程。采用多路 I/O 復用技術可以讓單個線程高效的處理多個連接請求（盡量減少網絡IO的時間消耗），且Redis在內存中操作數據的速度非常快（內存內的操作不會成為這里的性能瓶頸），主要以上兩點造就了Redis具有很高的吞吐量。

select和epoll的區別： 1、select支持的文件描述符數量太小了，默認是1024，而epoll無限制；

2、當有A B C D4個流時，比如甲連接了A。阻塞模式，一直處理A知道完成/阻塞；select模式，甲請求后無請求事件，進入阻塞，一旦甲又來請求，開始輪詢比如D、B、C、A，找到A了處理，問題是如果有500個呢？所以會產生驚群問題；epoll是在同時保持ABCD連接的同時，讓甲的請求事件驅動A，直接找到A連接開始處理，避免輪詢，問題是如果同時AC2個連接的請求都到了呢？redis采用線性事件串型化，讓AC進入隊列，然后異步消費隊列進行處理，

三、 Redis采用了單線程的模型，保證了每個操作的原子性，也減少了線程的上下文切換和競爭。

四、另外，數據結構也幫了不少忙，Redis全程使用hash結構，讀取速度快，還有一些特殊的數據結構，對數據存儲進行了優化，如壓縮表，對短數據進行壓縮存儲，再如，跳表，使用有序的數據結構加快讀取的速度。

五、還有一點，Redis采用自己實現的事件分離器，效率比較高，內部采用非阻塞的執行方式，吞吐能力比較大。

上述講到Redis是基於內存操作的，那服務器宕機了，那不是全完了，所以Redis有自己的持久化操作，下面我們來講講Redis的持久化。

2、Redis的持久化

1、RDB機制：

原理：RDB是默認開啟的，會按照配置的指定時間將內存中的數據快照到磁盤中，創建一個dump.rdb文件，redis啟動時再恢復到內存中。redis會單獨創建fork()一個子進程，將父進程的數據復制到子進程的內存中，然后由子進程寫入到臨時文件，再用這個臨時文件替換上次的快照文件，然后子進程退出，釋放內存。

注意：每次快照持久化都會講主進程的數據復制一遍，會導致內存開銷加倍，若此時內存不足，則會阻塞服務器運行，直到復制結束釋放內存；如果數據量過大，而且寫操作頻繁，必然會引起大量的磁盤操作，嚴重影響性能，並且最后一次持久化會消失。（順便一提，影響Redis的性能主要是磁盤操作）

2、AOF機制：

原理：以日志的形式記錄每個寫操作（讀操作不記錄），只需追加文件但不可改寫文件，redis啟動時會根據日志從頭到尾全部加載到內存中。

注意：因為AOF采用追加的方式，所以文件會越來越大，針對這個問題，新增了重寫機制，就是當日志文件大到一定程度的時候，會fork出一條新進程來遍歷進程內存中的數據，每條記錄對應一條set語句，寫到臨時文件中，然后替換舊的日志文件，默認觸發是當AOF文件大小是上次重啟大小的一倍且當文件大於64M的時候。

3、二者優缺點：

RDB存在哪些優勢呢？

1). 一旦采用該方式，那么你的整個Redis數據庫將只包含一個文件，這對於文件備份而言是非常完美的。比如，你可能打算每個小時歸檔一次最近24小時的數據，同時還要每天歸檔一次最近30天的數據。通過這樣的備份策略，一旦系統出現災難性故障，我們可以非常容易的進行恢復。

2). 對於災難恢復而言，RDB是非常不錯的選擇。因為我們可以非常輕松的將一個單獨的文件壓縮后再轉移到其它存儲介質上。

3). 性能最大化。對於Redis的服務進程而言，在開始持久化時，它唯一需要做的只是fork出子進程，之后再由子進程完成這些持久化的工作，這樣就可以極大的避免服務進程執行IO操作了。

4). 相比於AOF機制，如果數據集很大，RDB的啟動效率會更高。

RDB又存在哪些劣勢呢？

1). 如果你想保證數據的高可用性，即最大限度的避免數據丟失，那么RDB將不是一個很好的選擇。因為系統一旦在定時持久化之前出現宕機現象，此前沒有來得及寫入磁盤的數據都將丟失。

2). 由於RDB是通過fork子進程來協助完成數據持久化工作的，因此，如果當數據集較大時，可能會導致整個服務器停止服務幾百毫秒，甚至是1秒鍾。

AOF的優勢有哪些呢？

1). 該機制可以帶來更高的數據安全性，即數據持久性。Redis中提供了3中同步策略，即每秒同步、每修改同步和不同步。事實上，每秒同步也是異步完成的，其效率也是非常高的，所差的是一旦系統出現宕機現象，那么這一秒鍾之內修改的數據將會丟失。而每修改同步，我們可以將其視為同步持久化，即每次發生的數據變化都會被立即記錄到磁盤中。可以預見，這種方式在效率上是最低的。至於無同步，無需多言，我想大家都能正確的理解它。

2). 由於該機制對日志文件的寫入操作采用的是append模式，因此在寫入過程中即使出現宕機現象，也不會破壞日志文件中已經存在的內容。然而如果我們本次操作只是寫入了一半數據就出現了系統崩潰問題，不用擔心，在Redis下一次啟動之前，我們可以通過redis-check-aof工具來幫助我們解決數據一致性的問題。

3). 如果日志過大，Redis可以自動啟用rewrite機制。即Redis以append模式不斷的將修改數據寫入到老的磁盤文件中，同時Redis還會創建一個新的文件用於記錄此期間有哪些修改命令被執行。因此在進行rewrite切換時可以更好的保證數據安全性。

4). AOF包含一個格式清晰、易於理解的日志文件用於記錄所有的修改操作。事實上，我們也可以通過該文件完成數據的重建。

AOF的劣勢有哪些呢？

1). 對於相同數量的數據集而言，AOF文件通常要大於RDB文件。RDB 在恢復大數據集時的速度比 AOF 的恢復速度要快。

2). 根據同步策略的不同，AOF在運行效率上往往會慢於RDB。總之，每秒同步策略的效率是比較高的，同步禁用策略的效率和RDB一樣高效。

二者選擇的標准，就是看系統是願意犧牲一些性能，換取更高的緩存一致性（aof），還是願意寫操作頻繁的時候，不啟用備份來換取更高的性能，待手動運行save的時候，再做備份（rdb）。rdb這個就更有些 eventually consistent的意思了。