一、Redis概述
1.1、什么是Redis
Redis是一種高級key-value數據庫。它跟memcached類似,不過數據 可以持久化,而且支持的數據類型很豐富。有字符串,鏈表,集 合和有序集合。支持在服務器端計算集合的並,交和補集(difference)等,還支持多種排序功能。所以Redis也可以被看成是一個數據結構服務 器。
Redis的所有數據都是保存在內存中,然后不定期的通過異步方式保存到磁盤上(這稱為“半持久化模式”);也可以把每一次數據變化都寫入到一個append only file(aof)里面(這稱為“全持久化模式”)。
1.2、Redis數據持久化(俗稱“數據落地”)
redis是一個支持持久化的內存數據庫,也就是說redis需要經常將內存中的數據同步到磁盤來保證持久化。redis支持四種持久化方式,一是 Snapshotting(快照)也是默認方式;二是Append-only file(縮寫aof)的方式;三是虛擬內存方式;四是diskstore方式。下面分別介紹之。
(一)Snapshotting
快照是默認的持久化方式。這種方式是就是將內存中數據以快照的方式寫入到二進制文件中,默認的文件名為dump.rdb。可以通過配置設置自動做快照持久化的方式。我們可以配置redis在n秒內如果超過m個key被修改就自動做快照,下面是默認的快照保存配置:
save 300 10 #300秒內容如超過10個key被修改,則發起快照保存
save 60 10000
快照保存過程:
1. redis調用fork函數,有了子進程和父進程。
fork() 創建一個新進程,並為它創建新的地址空間
2. 父進程繼續處理client請求,子進程負責將內存內容寫入到臨時文件。由於os的寫時復制機制(copy on write)父子進程會共享相同的物理頁面,當父進程處理寫請求時os會為父進程要修改的頁面創建副本,而不是寫共享的頁面。所以子進程的地址空間內的數據是fork時刻整個數據庫的一個快照。
3. 當子進程將快照寫入臨時文件完畢后,用臨時文件替換原來的快照文件,然后子進程退出(fork一個進程入內在也被復制了,即內存會是原來的兩倍)。
client 也可以使用save或者bgsave命令通知redis做一次快照持久化。save操作是在主線程中保存快照的,由於redis是用一個主線程來處理所有 client的請求,這種方式會阻塞所有client請求。所以不推薦使用。另一點需要注意的是,每次快照持久化都是將內存數據完整寫入到磁盤一次,並不是增量的只同步臟數據。如果數據量大或者頻繁修改的話,而且寫操作比較多,必然會引起大量的磁盤io操作,可能會嚴重影響性能。
另外由於快照方式是在一定間隔時間做一次的,所以如果redis意外down掉的話,就會丟失最后一次快照后的所有修改。如果應用要求不能丟失任何修改的話,可以采用aof持久化方式。下面介紹:
(二)Append-only file
aof 比快照方式有更好的持久化性,是由於在使用aof持久化方式時,redis會將每一個收到的寫命令都通過write函數追加到文件中(默認是appendonly.aof)。當redis重啟時會通過重新執行文件中保存的寫命令來在內存中重建整個數據庫的內容。當然由於os會在內核中緩存 write做的修改,所以可能不是立即寫到磁盤上。這樣aof方式的持久化也還是有可能會丟失部分修改。不過我們可以通過配置文件告訴redis我們想要通過fsync函數強制os寫入到磁盤的時機。有三種方式如下(默認是:每秒fsync一次):
# appendfsync always #每次收到寫命令就立即強制寫入磁盤,最慢的,但是保證完全的持久化,不推薦使用
appendfsync everysec #每秒鍾強制寫入磁盤一次,在性能和持久化方面做了很好的折中,推薦
# appendfsync no #完全依賴os,性能最好,持久化沒保證
aof 的方式也同時帶來了另一個問題。持久化文件會變的越來越大。例如我們調用incr test命令100次,文件中必須保存全部的100條命令,其實有99條都是多余的。因為要恢復數據庫的狀態其實文件中保存一條set test 100就夠了。為了壓縮aof的持久化文件。redis提供了bgrewriteaof命令。收到此命令redis將使用與快照類似的方式將內存中的數據以命令的方式保存到臨時文件中,最后替換原來的文件。具體過程如下:
1. redis調用fork ,現在有父子兩個進程
2. 子進程根據內存中的數據庫快照,往臨時文件中寫入重建數據庫狀態的命令
3. 父進程繼續處理client請求,除了把寫命令寫入到原來的aof文件中。同時把收到的寫命令緩存起來。這樣就能保證如果子進程重寫失敗的話並不會出問題。
4. 當子進程把快照內容寫入已命令方式寫到臨時文件中后,子進程發信號通知父進程。然后父進程把緩存的寫命令也寫入到臨時文件。
5. 現在父進程可以使用臨時文件替換老的aof文件,並重命名,后面收到的寫命令也開始往新的aof文件中追加。
需要注意到是重寫aof文件的操作,並沒有讀取舊的aof文件,而是將整個內存中的數據庫內容用命令的方式重寫了一個新的aof文件,這點和快照有點類似。
(三)虛擬內存方式(desprecated)
首先說明:在Redis-2.4后虛擬內存功能已經被deprecated了,原因如下:
1)slow restart重啟太慢
2)slow saving保存數據太慢
3)slow replication上面兩條導致 replication 太慢
4)complex code代碼過於復雜
下面還是介紹一下redis的虛擬內存。
redis的虛擬內存與os的虛擬內存不是一碼事,但是思路和目的都是相同的。就是暫時把不經常訪問的數據從內存交換到磁盤中,從而騰出寶貴的內存空間用於其他需要訪問的數據。尤其是對於redis這樣的內存數據庫,內存總是不夠用的。除了可以將數據分割到多個redis server外。另外的能夠提高數據庫容量的辦法就是使用vm把那些不經常訪問的數據交換的磁盤上。如果我們的存儲的數據總是有少部分數據被經常訪問,大部分數據很少被訪問,對於網站來說確實總是只有少量用戶經常活躍。當少量數據被經常訪問時,使用vm不但能提高單台redis server數據庫的容量,而且也不會對性能造成太多影響。
redis沒有使用os提供的虛擬內存機制而是自己在用戶態實現了自己的虛擬內存機制,作者在自己的blog專門解釋了其中原因。
http://antirez.com/post/redis-virtual-memory-story.html
主要的理由有兩點:
1. os 的虛擬內存是已4k頁面為最小單位進行交換的。而redis的大多數對象都遠小於4k,所以一個os頁面上可能有多個redis對象。另外redis的集合對象類型如list,set可能存在與多個os頁面上。最終可能造成只有10%key被經常訪問,但是所有os頁面都會被os認為是活躍的,這樣只有內存真正耗盡時os才會交換頁面。
2.相比於os的交換方式。redis可以將被交換到磁盤的對象進行壓縮,保存到磁盤的對象可以去除指針和對象元數據信息。一般壓縮后的對象會比內存中的對象小10倍。這樣redis的vm會比os vm能少做很多io操作。
下面是vm相關配置:
vm-enabled yes #開啟vm功能
vm-swap-file /tmp/redis.swap #交換出來的value保存的文件路徑/tmp/redis.swap
vm-max-memory 1000000 #redis使用的最大內存上限,超過上限后redis開始交換value到磁盤文件中
vm-page-size 32 #每個頁面的大小32個字節
vm-pages 134217728 #最多使用在文件中使用多少頁面,交換文件的大小 = vm-page-size * vm-pages
vm-max-threads 4 #用於執行value對象換入換出的工作線程數量,0表示不使用工作線程(后面介紹)
redis的vm在設計上為了保證key的查找速度,只會將value交換到swap文件中。所以如果是內存問題是由於太多value很小的key造成的,那么vm並不能解決。和os一樣redis也是按頁面來交換對象的。redis規定同一個頁面只能保存一個對象。但是一個對象可以保存在多個頁面中。
在redis使用的內存沒超過vm-max-memory之前是不會交換任何value的。當超過最大內存限制后,redis會選擇較老的對象。如果兩個對象一樣老會優先交換比較大的對象,精確的公式swappability = age*log(size_in_memory)。對於vm-page-size的設置應該根據自己的應用將頁面的大小設置為可以容納大多數對象的大小。太大了會浪費磁盤空間,太小了會造成交換文件出現碎片。對於交換文件中的每個頁面,redis會在內存中對應一個1bit值來記錄頁面的空閑狀態。所以像上面配置中頁面數量(vm-pages 134217728 )會占用16M內存用來記錄頁面空閑狀態。vm-max-threads表示用做交換任務的線程數量。如果大於0推薦設為服務器的cpu core的數量。如果是0則交換過程在主線程進行。
參數配置討論完后,在來簡單介紹下vm是如何工作的:
當vm-max-threads設為0時(Blocking VM)
換出:
主線程定期檢查發現內存超出最大上限后,會直接已阻塞的方式,將選中的對象保存到swap文件中,並釋放對象占用的內存,此過程會一直重復直到下面條件滿足
1.內存使用降到最大限制以下
2.swap文件滿了
3.幾乎全部的對象都被交換到磁盤了
換入:
當有client請求value被換出的key時。主線程會以阻塞的方式從文件中加載對應的value對象,加載時此時會阻塞所有client。然后處理client的請求
當vm-max-threads大於0(Threaded VM)
換出:
當主線程檢測到使用內存超過最大上限,會將選中的要交換的對象信息放到一個隊列中交由工作線程后台處理,主線程會繼續處理client請求。
換入:
如果有client請求的key被換出了,主線程先阻塞發出命令的client,然后將加載對象的信息放到一個隊列中,讓工作線程去加載。加載完畢后工作線程通知主線程。主線程再執行client的命令。這種方式只阻塞請求value被換出key的client
總的來說blocking vm的方式總的性能會好一些,因為不需要線程同步,創建線程和恢復被阻塞的client等開銷。但是也相應的犧牲了響應性。threaded vm的方式主線程不會阻塞在磁盤io上,所以響應性更好。如果我們的應用不太經常發生換入換出,而且也不太在意有點延遲的話則推薦使用blocking vm的方式。
關於redis vm的更詳細介紹可以參考下面鏈接:
http://antirez.com/post/redis-virtual-memory-story.html
http://redis.io/topics/internals-vm
(四)diskstore方式
diskstore方式是作者放棄了虛擬內存方式后選擇的一種新的實現方式,也就是傳統的B-tree的方式。具體細節是:
1) 讀操作,使用read through以及LRU方式。內存中不存在的數據從磁盤拉取並放入內存,內存中放不下的數據采用LRU淘汰。
2) 寫操作,采用另外spawn一個線程單獨處理,寫線程通常是異步的,當然也可以 把cache-flush-delay配置設成0,Redis盡量保證即時寫入。但是在很多場合延遲寫會有更好的性能,比如一些計數器用Redis存儲, 在短時間如果某個計數反復被修改,Redis只需要將最終的結果寫入磁盤。這種做法作者叫per key persistence。由於寫入會按key合並,因此和snapshot還是有差異,disk store並不能保證時間一致性。
由於寫操作是單線程,即使cache-flush-delay設成0,多個client同時寫則需要排隊等待,如果隊列容量超過cache-max-memory Redis設計會進入等待狀態,造成調用方卡住。
Google Group上有熱心網友迅速完成了壓力測試,當內存用完之后,set每秒處理速度從25k下降到10k再到后來幾乎卡住。 雖然通過增加cache-flush-delay可以提高相同key重復寫入性能;通過增加cache-max-memory可以應對臨時峰值寫入。但是diskstore寫入瓶頸最終還是在IO。
3) rdb 和新 diskstore 格式關系
rdb是傳統Redis內存方式的存儲格式,diskstore是另外一種格式,那兩者關系如何?
·通過BGSAVE可以隨時將diskstore格式另存為rdb格式,而且rdb格式還用於Redis復制以及不同存儲方式之間的中間格式。
· 通過工具可以將rdb格式轉換成diskstore格式。
當然,diskstore原 理很美好,但是目前還處於alpha版本,也只是一個簡單demo,diskstore.c加上注釋只有300行,實現的方法就是將每個value作為一 個獨立文件保存,文件名是key的hash值。因此diskstore需要將來有一個更高效穩定的實現才能用於生產環境。但由於有清晰的接口設 計,diskstore.c也很容易換成一種B-Tree的實現。很多開發者也在積極探討使用bdb或者innodb來替換默認diskstore.c的 可行性。
下面介紹一下Diskstore的算法。
其實DiskStore類 似於Hash算法,首先通過SHA1算法把Key轉化成一個40個字符的Hash值,然后把Hash值的前兩位作為一級目錄,然后把Hash值的三四位作 為二級目錄,最后把Hash值作為文件名,類似於“/0b/ee/0beec7b5ea3f0fdbc95d0dd47f3c5bc275da8a33” 形式。算法如下:
dsKeyToPath(key):
char path[1024];
char *hashKey = sha1(key);
path[0] = hashKey[0];
path[1] = hashKey[1];
path[2] = '/';
path[3] = hashKey[2];
path[4] = hashKey[3];
path[5] = '/';
memcpy(path + 6, hashKey, 40);
return path;
存儲算法(如key == apple):
dsSet(key, value, expireTime):
// d0be2dc421be4fcd0172e5afceea3970e2f3d940
char *hashKey = sha1(key);
// d0/be/d0be2dc421be4fcd0172e5afceea3970e2f3d940
char *path = dsKeyToPath(hashKey);
FILE *fp = fopen(path, "w");
rdbSaveKeyValuePair(fp, key, value, expireTime);
fclose(fp)
獲取算法:
dsGet(key):
char *hashKey = sha1(key);
char *path = dsKeyToPath(hashKey);
FILE *fp = fopen(path, "r");
robj *val = rdbLoadObject(fp);
return val;
二、Redis安裝
2.1、redis安裝
# cd /data/soft/
# tar xf redis-2.4.15.tar.gz -C tmp/
# cd tmp/redis-2.4.15/
#make PREFIX=/usr/local/services/redis-2.4.15 >/dev/null
#make PREFIX=/usr/local/services/redis-2.4.15 install >/dev/null
#ln -s /usr/local/services/redis-2.4.15/bin/ /usr/local/services/redis/
會在當前目錄下生成本個可執行文件,分別是redis-server、redis-cli、redis-benchmark、redis-stat,它們的作用如下:
· redis-server:Redis服務器的daemon啟動程序
· redis-cli:Redis命令行操作工具。當然,你也可以用telnet根據其純文本協議來操作
· redis-benchmark:Redis性能測試工具,測試Redis在你的系統及你的配置下的讀寫性能
· redis-stat:Redis狀態檢測工具,可以檢測Redis當前狀態參數及延遲狀況
2.2、調整overcommit_memory參數
如果內存情況比較緊張的話,需要設定內核參數overcommit_memory,指定內核針對內存分配的策略,其值可以是0、1、2。
0,表示內核將檢查是否有足夠的可用內存供應用進程使用;如果有足夠的可用內存,內存申請允許;否則,內存申請失敗,並把錯誤返回給應用進程。
1,表示內核允許分配所有的物理內存,而不管當前的內存狀態如何。
2,表示內核允許分配超過所有物理內存和交換空間總和的內存
Redis在dump數據的時候,會fork出一個子進程,理論上child進程所占用的內存和parent是一樣的,比如parent占用的內存為 8G,這個時候也要同樣分配8G的內存給child, 如果內存無法負擔,往往會造成redis服務器的down機或者IO負載過高,效率下降。所以這里比較優化的內存分配策略應該設置為 1(表示內核允許分配所有的物理內存,而不管當前的內存狀態如何)。
設置方式有兩種,需確定當前用戶的權限活使用root用戶修改:
1:重設文件 # echo 1 > /proc/sys/vm/overcommit_memory(默認為0)
2: # echo "vm.overcommit_memory=1" >> /etc/sysctl.conf
# /sbin/sysctl -p
2.3、拷貝配置文件
#mkdir /usr/local/services/redis-2.4.15/etc
# cd /soft/redis/redis-2.4.15
# cp redis.conf /usr/local/services/redis-2.4.15/etc/
2.4、redis配置文件
# mkdir –p /data/redis/redis_db
#mkdir –p /data/redis/redis_dump
daemonize yes
pidfile /data/redis/redis_db/redis.pid
port 6379
timeout 300
loglevel debug
logfile stdout
databases 16
save 900 1
save 300 10
save 60 10000
rdbcompression yes
dbfilename dump.rdb
dir /data/redis/redis_dump
slave-serve-stale-data yes
appendonly no
appendfsync everysec
no-appendfsync-on-rewrite no
auto-aof-rewrite-percentage 100
auto-aof-rewrite-min-size 64mb
slowlog-log-slower-than 10000
slowlog-max-len 128
vm-enabled no
vm-swap-file /data/redis/redis_db/redis.swap
vm-max-memory 0
vm-page-size 32
vm-pages 134217728
vm-max-threads 4
hash-max-zipmap-entries 512
hash-max-zipmap-value 64
list-max-ziplist-entries 512
list-max-ziplist-value 64
set-max-intset-entries 512
zset-max-ziplist-entries 128
zset-max-ziplist-value 64
activerehashing yes
bind 127.0.0.1
配置文件說明
daemonize yes # Redis默認不是以守護進程的方式運行,可以通過該配置項修改,使用yes啟用守護進程
pidfile /data/redis/redis_db/redis.pid #當Redis以守護進程方式運行時,Redis默認會把pid寫入/var/run/redis.pid文件,可以通過pidfile指定
port 6379 #指定Redis監聽端口,默認端口為6379,作者在自己的一篇博文中解釋了為什么選用6379作為默認端口,因為6379在手機按鍵上MERZ對應的號碼,而MERZ取自意大利歌女Alessia Merz的名字
timeout 300 #當客戶端閑置多長時間后關閉連接,如果指定為0,表示關閉該功能
loglevel debug #指定日志記錄級別,Redis總共支持四個級別:debug、verbose、notice、warning,默認為verbose
logfile stdout #日志記錄方式,默認為標准輸出,如果配置Redis為守護進程方式運行,而這里又配置為日志記錄方式為標准輸出,則日志將會發送給/dev/null
databases 16 #設置數據庫的數量,默認數據庫為0,可以使用SELECT <dbid>命令在連接上指定數據庫id
#指定在多長時間內,有多少次更新操作,就將數據同步到數據文件,可以多個條件配合
Redis默認配置文件中提供了三個條件
save 900 1
save 300 10
save 60 10000
#指定存儲至本地數據庫時是否壓縮數據,默認為yes,Redis采用LZF壓縮,如果為了節省CPU時間,可以關閉該選項,但會導致數據庫文件變的巨大
rdbcompression yes
#指定本地數據庫文件名,默認值為dump.rdb
dbfilename dump.rdb
#指定本地數據庫存放目錄
dir /data/redis/redis_dump
設置當本機為slav服務時,設置master服務的IP地址及端口,在Redis啟動時,它會自動從master進行數據同步
slave-serve-stale-data yes
. 指定是否在每次更新操作后進行日志記錄,Redis在默認情況下是異步的把數據寫入磁盤,如果不開啟,可能會在斷電時導致一段時間內的數據丟失。因為 redis本身同步數據文件是按上面save條件來同步的,所以有的數據會在一段時間內只存在於內存中。默認為no
appendonly no
指定更新日志條件,共有3個可選值:
no:表示等操作系統進行數據緩存同步到磁盤(快)
always:表示每次更新操作后手動調用fsync()將數據寫到磁盤(慢,安全)
everysec:表示每秒同步一次(折衷,默認值)
appendfsync everysec
當AOF文件增長到一定大小的時候Redis能夠調用 BGREWRITEAOF 對日志文件進行重寫
no-appendfsync-on-rewrite no
auto-aof-rewrite-percentage 100
auto-aof-rewrite-min-size 64mb
注意制定一個負數將關閉慢日志,而設置為0將強制每個命令都會記錄
slowlog-log-slower-than 10000
slowlog-max-len 128
指定是否啟用虛擬內存機制,默認值為no,簡單的介紹一下,VM機制將數據分頁存放,由Redis將訪問量較少的頁即冷數據swap到磁盤上,訪問多的頁面由磁盤自動換出到內存中(在后面的文章我會仔細分析Redis的VM機制)
vm-enabled no
虛擬內存文件路徑,默認值為/tmp/redis.swap,不可多個Redis實例共享
vm-swap-file /data/redis/redis_db/redis.swap #交換文件
將所有大於vm-max-memory的數據存入虛擬內存,無論vm-max-memory設置多小,所有索引數據都是內存存儲的(Redis的索引數據 就是keys),也就是說,當vm-max-memory設置為0的時候,其實是所有value都存在於磁盤。默認值為0
vm-max-memory 0
Redis swap文件分成了很多的page,一個對象可以保存在多個page上面,但一個page上不能被多個對象共享,vm-page-size是要根據存儲的 數據大小來設定的,作者建議如果存儲很多小對象,page大小最好設置為32或者64bytes;如果存儲很大大對象,則可以使用更大的page,如果不 確定,就使用默認值
vm-page-size 32
設置swap文件中的page數量,由於頁表(一種表示頁面空閑或使用的bitmap)是在放在內存中的,,在磁盤上每8個pages將消耗1byte的內存
vm-pages 134217728
設置訪問swap文件的線程數,最好不要超過機器的核數,如果設置為0,那么所有對swap文件的操作都是串行的,可能會造成比較長時間的延遲。默認值為4
vm-max-threads 4
指定在超過一定的數量或者最大的元素超過某一臨界值時,采用一種特殊的哈希算法
hash-max-zipmap-entries 512
hash-max-zipmap-value 64
list數據類型節點值大小小於多少字節會采用緊湊存儲格式。
list-max-ziplist-entries 512
list-max-ziplist-value 64
set數據類型內部數據如果全部是數值型,且包含多少節點以下會采用緊湊格式存儲。
set-max-intset-entries 512
zsort數據類型節點值大小小於多少字節會采用緊湊存儲格式。
zset-max-ziplist-entries 128
zset-max-ziplist-value 64
指定是否激活重置哈希,默認為開啟
activerehashing yes
綁定的主機地址
bind 127.0.0.1
2.5、啟動Redis服務
# redis-server conf/redis.conf
# redis-cli shutdown 停止Redis 關閉服務
# redis-cli -p 6380 shutdown 如果非默認端口,可指定端口:
2.6、測試Redis
# ls /data/redis/redis_dump/ 看看是否有文件。沒有?正常。我們寫入數據進去
# telnet localhost 6379
Trying ::1...
telnet: connect to address ::1: Connection refused
Trying 127.0.0.1...
Connected to localhost.
Escape character is '^]'.
get mykey
$-1
set foo 3
+OK
get foo
$1
3
quit
+OK
Connection closed by foreign host.
# ls /data/redis/redis_dump/ 在此嘗試看看。。