before
- C語言基礎
- Redis基礎
導入
redis的命令如下:
set x "hello";
get x;
hello
Redis作為一種存儲字符串的緩存結構,其具體實現是由C語言完成,在C語言中,字符串是通過字符數組實現的,即char[],那么Redis對於字符串的實現是不是也是基於字符數組嗎?不是的,Redis對字符串的處理是通過SDS(Simple Dynamic String)實現的。
SDS介紹
SDS(Simple Dynamic String)簡單動態字符串,它是由C語言完成,如下是其具體實現
Redis作為一種存儲字符串的緩存結構,其具體實現是由C語言完成,在C語言中,字符串是通過字符數組實現的,即char[],那么Redis對於字符串的實現是不是也是基於字符數組嗎?不是的,Redis對字符串的處理是通過SDS(Simple Dynamic String)實現的。
struct sdshdr{ //記錄buf數組已使用字節的數量 //等於SDS所保存字符串的長度 int length; //記錄buf數組未使用字節的數量 int free; //buf數組 char[] buf; }; 看看redis的示例: sdshdr free 0 length 5 buf -->|'R'|'e'|'d'|'i'|'s'|'\0'| 解釋: - free為0,表示這個SDS沒有分配任何未使用的空間 - length為5,表示這個SDS保存了一個長度為5的字符串 - buf數組中保存着“Redis”字符串
SDS遵循C字符串以空字符串結尾的慣例,保存空字符串的1字節空間不計算在SDS的len屬性之中。
再看看SDS的free不為0的情況:
sdshdr free 3 length 5 buf -->|'R'|'e'|'d'|'i'|'s'| | | |
free的值為3,表示這個SDS分配了三個空閑的空間
SDS與字符串的區別
C語言使用簡單的字符串表示方式,並不能滿足Redis對字符串在安全性,效率,以及功能方面的要求,SDS更使用Redis。
@1 常數復雜度獲取字符串長度
C字符串:
因為C語言並不記錄自身的長度信息,所以獲取一個C字符串的長度,程序必須遍歷整個字符串,對遇到的,每個字符進行計數,直到遇到代表字符串結尾的空字符串為止,這個操作的復雜度為O(n)。
SDS:
與C語言不同的是,SDS結構中的屬性length記錄了SDS本身的長度,所以獲取一個SDS長度的復雜度為O(1)。有人疑問那么SDS的length值是哪來的?這里的length值是SDS API在設置和更新SDS時自動完成的。
總結1
:通過使用SDS而不是C字符串,Redis獲取字符串長度的復雜度由O(N)降為O(1),這確保了字符串長度的獲取的工作不會成為Redis的性能瓶頸。
@ 2杜絕緩沖區溢出
C字符串:
由於C自身不記錄字符串的長度帶來一個問題是容易造成緩沖區溢出(buffer overflow)。在<string.h>/strcat
函數中,可以將一個字符串拼接到另外一個字符串的末尾。
`char *strcat(char *dest,const char *src)`
理想狀態下,用戶在使用這個函數時,假定C為dest分配了足夠多的內存,可以容納src字符串中的所有內容,而一旦這個假定不成立,就會產生緩沖區溢出。舉個例子,假定內存中有相鄰的兩個字符串s1,s2,如圖:
s1 s2 | | ...|'R'|'e'|'d'|'i'|'s'|'\0'||'g'|'o'|'o'|'d'|'\0'|...
如果執行strcat(s1," cluster");
將Redis改為”Redis cluster“,但是粗心的卻忘了在執行這句之前為s1分配足夠的空間,那么在執行之后,s1的數據將會溢出到s2所在的空間,導致s2保存的內容意外的被修改。
SDS:
與C語言不同的是,SDS空間分配政策完全杜絕了發生緩沖區溢出的可能性:當SDS API需要對字符串進行修改時,首先會檢查SDS的空間是否滿足修改所需的要求,因為SDS自身有對字符串長度記錄的屬性length和空閑空間屬性free,可以借助這兩個參數進行檢查。SDS會在執行動作之前判斷SDS的空間大小,再去執行操作,如果空間不夠的話,SDS API會自動擴展空間。
@ 3減少修改字符串時帶來的內存重分配次數
C字符串:
因為C字符串不記錄自身長度,每次增長或者縮短字符串長度時,程序都要對這個C字符串數組進行一次內存重新分配操作,不然容易造成內存益出。因為內存,分配設計復雜的算法,並且可能需要執行系統調用,所以它通常是一個比較耗時和耗能的操作。但是Redis作為緩存,追求速度,所以不能經常發生內存分配操作。
SDS:
SDS數組中的未使用空間字節數量由SDS的屬性free記錄,通過free記錄,SDS實現了空間預分配和惰性釋放兩種優化策略。1. 空間預分配
空間預分配用於優化SDS的字符串增長操作:當SDS的API對一個SDS進行修改,並且需要對SDS的空間進行擴展時,程序不僅會為SDS分配修改所需要的空間,而且還會為SDS分配額外的空間。額外的空間分配規則如下:
(1)如果修改SDS之后,SDS的長度小於1MB,那么程序會給SDS分配和length一樣大的額外空間,這是SDSlength和free的值相等。舉個例子,如果修改后的字符串長度為13k,那么SDS的空間將會占據13+13+1=27k(額外的一個字節用於保存空字符串)。
(2)如果修改SDS之后,SDS的長度大於1MB,那么程序會給SDS分配額外的1MB空間,舉個例子,比如修改后的SDS有30MB的大小,那么程序會分配1MB的未使用空間,SDS的buf數組實際大小將是30MB+1MB+1byte。
2.惰性釋放
惰性釋放用於優化SDS的字符串縮短操作:當SDS的API要縮短SDS保存的字符串時,程序並不需要立即使用內存重分配策略來回收縮短后多出來的字節,而是使用free屬性將這些字節記錄起來,並等待使用。
@4 二進制安全
C字符串中的字符必須符合某種編碼(比如ASCII),並且除了字符串末尾之外,字符串里面不能包含空字符串,否則最先被程序讀入的空字符串將被誤認為是字符串結尾。
SDS API都是二進制安全的,所有SDS API都會以處理二進制的方式來處理存放在SDS buf中的數據,數據寫什么樣,它被讀取時就是什么樣子。
@5 兼容部分C字符串函數
SDS的API總會以SDS保存的數據的末尾設置為空字符串,並且在分配SDS空間時會多分配一個字節的空間來容納空字符串,這是為了那些保存的數據可以重用一部分<string.h>
庫中的函數。
總結
字符串和SDS之間的區別總結如下:
原文鏈接:Redis字符串鍵的底層原理