Redis字符串鍵的底層原理


before

  • C語言基礎
  • Redis基礎

導入

redis的命令如下:

            set x "hello";
            get x;
            hello    

  Redis作為一種存儲字符串的緩存結構,其具體實現是由C語言完成,在C語言中,字符串是通過字符數組實現的,即char[],那么Redis對於字符串的實現是不是也是基於字符數組嗎?不是的,Redis對字符串的處理是通過SDS(Simple Dynamic String)實現的。

SDS介紹

  SDS(Simple Dynamic String)簡單動態字符串,它是由C語言完成,如下是其具體實現

Redis作為一種存儲字符串的緩存結構,其具體實現是由C語言完成,在C語言中,字符串是通過字符數組實現的,即char[],那么Redis對於字符串的實現是不是也是基於字符數組嗎?不是的,Redis對字符串的處理是通過SDS(Simple Dynamic String)實現的。

struct sdshdr{
    //記錄buf數組已使用字節的數量
    //等於SDS所保存字符串的長度
    int length; 
    //記錄buf數組未使用字節的數量
    int free;
    //buf數組
    char[] buf;
};
 
看看redis的示例:
    sdshdr
    free 0
    length 5
    buf     -->|'R'|'e'|'d'|'i'|'s'|'\0'|
解釋:
        - free為0,表示這個SDS沒有分配任何未使用的空間
        - length為5,表示這個SDS保存了一個長度為5的字符串    
        - buf數組中保存着“Redis”字符串

  SDS遵循C字符串以空字符串結尾的慣例,保存空字符串的1字節空間不計算在SDS的len屬性之中。

  再看看SDS的free不為0的情況:

   sdshdr
    free 3
    length 5
    buf      -->|'R'|'e'|'d'|'i'|'s'| | | |

  free的值為3,表示這個SDS分配了三個空閑的空間

SDS與字符串的區別

  C語言使用簡單的字符串表示方式,並不能滿足Redis對字符串在安全性,效率,以及功能方面的要求,SDS更使用Redis。

@1 常數復雜度獲取字符串長度

C字符串:
  因為C語言並不記錄自身的長度信息,所以獲取一個C字符串的長度,程序必須遍歷整個字符串,對遇到的,每個字符進行計數,直到遇到代表字符串結尾的空字符串為止,這個操作的復雜度為O(n)。

SDS:
  與C語言不同的是,SDS結構中的屬性length記錄了SDS本身的長度,所以獲取一個SDS長度的復雜度為O(1)。有人疑問那么SDS的length值是哪來的?這里的length值是SDS API在設置和更新SDS時自動完成的。

總結1:通過使用SDS而不是C字符串,Redis獲取字符串長度的復雜度由O(N)降為O(1),這確保了字符串長度的獲取的工作不會成為Redis的性能瓶頸。

@ 2杜絕緩沖區溢出

C字符串:
  由於C自身不記錄字符串的長度帶來一個問題是容易造成緩沖區溢出(buffer overflow)。在<string.h>/strcat函數中,可以將一個字符串拼接到另外一個字符串的末尾。

`char *strcat(char *dest,const char *src)`

  理想狀態下,用戶在使用這個函數時,假定C為dest分配了足夠多的內存,可以容納src字符串中的所有內容,而一旦這個假定不成立,就會產生緩沖區溢出。舉個例子,假定內存中有相鄰的兩個字符串s1,s2,如圖:

    s1                        s2
     |                         |
...|'R'|'e'|'d'|'i'|'s'|'\0'||'g'|'o'|'o'|'d'|'\0'|...

  如果執行strcat(s1," cluster");將Redis改為”Redis cluster“,但是粗心的卻忘了在執行這句之前為s1分配足夠的空間,那么在執行之后,s1的數據將會溢出到s2所在的空間,導致s2保存的內容意外的被修改。

SDS:

  與C語言不同的是,SDS空間分配政策完全杜絕了發生緩沖區溢出的可能性:當SDS API需要對字符串進行修改時,首先會檢查SDS的空間是否滿足修改所需的要求,因為SDS自身有對字符串長度記錄的屬性length和空閑空間屬性free,可以借助這兩個參數進行檢查。SDS會在執行動作之前判斷SDS的空間大小,再去執行操作,如果空間不夠的話,SDS API會自動擴展空間。

  

@ 3減少修改字符串時帶來的內存重分配次數

C字符串:

  因為C字符串不記錄自身長度,每次增長或者縮短字符串長度時,程序都要對這個C字符串數組進行一次內存重新分配操作,不然容易造成內存益出。因為內存,分配設計復雜的算法,並且可能需要執行系統調用,所以它通常是一個比較耗時和耗能的操作。但是Redis作為緩存,追求速度,所以不能經常發生內存分配操作。

SDS:

  SDS數組中的未使用空間字節數量由SDS的屬性free記錄,通過free記錄,SDS實現了空間預分配和惰性釋放兩種優化策略。
1. 空間預分配
  空間預分配用於優化SDS的字符串增長操作:當SDS的API對一個SDS進行修改,並且需要對SDS的空間進行擴展時,程序不僅會為SDS分配修改所需要的空間,而且還會為SDS分配額外的空間。額外的空間分配規則如下:

(1)如果修改SDS之后,SDS的長度小於1MB,那么程序會給SDS分配和length一樣大的額外空間,這是SDSlength和free的值相等。舉個例子,如果修改后的字符串長度為13k,那么SDS的空間將會占據13+13+1=27k(額外的一個字節用於保存空字符串)。

(2)如果修改SDS之后,SDS的長度大於1MB,那么程序會給SDS分配額外的1MB空間,舉個例子,比如修改后的SDS有30MB的大小,那么程序會分配1MB的未使用空間,SDS的buf數組實際大小將是30MB+1MB+1byte。

2.惰性釋放

  惰性釋放用於優化SDS的字符串縮短操作:當SDS的API要縮短SDS保存的字符串時,程序並不需要立即使用內存重分配策略來回收縮短后多出來的字節,而是使用free屬性將這些字節記錄起來,並等待使用。

@4 二進制安全

  C字符串中的字符必須符合某種編碼(比如ASCII),並且除了字符串末尾之外,字符串里面不能包含空字符串,否則最先被程序讀入的空字符串將被誤認為是字符串結尾。

SDS API都是二進制安全的,所有SDS API都會以處理二進制的方式來處理存放在SDS buf中的數據,數據寫什么樣,它被讀取時就是什么樣子。

@5 兼容部分C字符串函數

  SDS的API總會以SDS保存的數據的末尾設置為空字符串,並且在分配SDS空間時會多分配一個字節的空間來容納空字符串,這是為了那些保存的數據可以重用一部分<string.h>庫中的函數。

總結

字符串和SDS之間的區別總結如下:

 

 

 

原文鏈接:Redis字符串鍵的底層原理

redis跳躍表原理

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM