轉(https://www.cnblogs.com/renpingsheng/p/9862485.html)
Redis Cluster是Redis官方提供的Redis集群功能
1.為什么要實現Redis Cluster
1.主從復制不能實現高可用
2.隨着公司發展,用戶數量增多,並發越來越多,業務需要更高的QPS,而主從復制中單機的QPS可能無法滿足業務需求
3.數據量的考慮,現有服務器內存不能滿足業務數據的需要時,單純向服務器添加內存不能達到要求,此時需要考慮分布式需求,把數據分布到不同服務器上
4.網絡流量需求:業務的流量已經超過服務器的網卡的上限值,可以考慮使用分布式來進行分流
5.離線計算,需要中間環節緩沖等別的需求
2.數據分布
2.1 為什么要做數據分布
全量數據,單機Redis節點無法滿足要求,按照分區規則把數據分到若干個子集當中
2.2 常用數據分布方式之順序分布
比如:1到100個數字,要保存在3個節點上,按照順序分區,把數據平均分配三個節點上
1號到33號數據保存到節點1上,34號到66號數據保存到節點2上,67號到100號數據保存到節點3上
順序分區常用在關系型數據庫的設計
2.3 常用數據分布方式之哈希分布
例如1到100個數字,對每個數字進行哈希運算,然后對每個數的哈希結果除以節點數進行取余,余數為1則保存在第1個節點上,余數為2則保存在第2個節點上,余數為0則保存在第3個節點,這樣可以保證數據被打散,同時保證數據分布的比較均勻
哈希分布方式分為三個分區方式:
2.3.1 節點取余分區
比如有100個數據,對每個數據進行hash運算之后,與節點數進行取余運算,根據余數不同保存在不同的節點上
節點取余方式是非常簡單的一種分區方式
節點取余分區方式有一個問題:即當增加或減少節點時,原來節點中的80%的數據會進行遷移操作,對所有數據重新進行分布
節點取余分區方式建議使用多倍擴容的方式,例如以前用3個節點保存數據,擴容為比以前多一倍的節點即6個節點來保存數據,這樣只需要適移50%的數據。數據遷移之后,第一次無法從緩存中讀取數據,必須先從數據庫中讀取數據,然后回寫到緩存中,然后才能從緩存中讀取遷移之后的數據
節點取余方式優點:
客戶端分片
配置簡單:對數據進行哈希,然后取余
節點取余方式缺點:
數據節點伸縮時,導致數據遷移
遷移數量和添加節點數據有關,建議翻倍擴容
2.3.2 一致性哈希分區
一致性哈希原理:
將所有的數據當做一個token環,token環中的數據范圍是0到2的32次方。然后為每一個數據節點分配一個token范圍值,這個節點就負責保存這個范圍內的數據。
對每一個key進行hash運算,被哈希后的結果在哪個token的范圍內,則按順時針去找最近的節點,這個key將會被保存在這個節點上。
在上面的圖中,有4個key被hash之后的值在在n1節點和n2節點之間,按照順時針規則,這4個key都會被保存在n2節點上, 如果在n1節點和n2節點之間添加n5節點,當下次有key被hash之后的值在n1節點和n5節點之間,這些key就會被保存在n5節點上面了 在上面的例子里,添加n5節點之后,數據遷移會在n1節點和n2節點之間進行,n3節點和n4節點不受影響,數據遷移范圍被縮小很多 同理,如果有1000個節點,此時添加一個節點,受影響的節點范圍最多只有千分之2 一致性哈希一般用在節點比較多的時候
一致性哈希分區優點:
采用客戶端分片方式:哈希 + 順時針(優化取余)
節點伸縮時,只影響鄰近節點,但是還是有數據遷移
一致性哈希分區缺點:
翻倍伸縮,保證最小遷移數據和負載均衡
2.3.3 虛擬槽分區
虛擬槽分區是Redis Cluster采用的分區方式
預設虛擬槽,每個槽就相當於一個數字,有一定范圍。每個槽映射一個數據子集,一般比節點數大
Redis Cluster中預設虛擬槽的范圍為0到16383
步驟:
1.把16384槽按照節點數量進行平均分配,由節點進行管理
2.對每個key按照CRC16規則進行hash運算 3.把hash結果對16383進行取余 4.把余數發送給Redis節點 5.節點接收到數據,驗證是否在自己管理的槽編號的范圍 如果在自己管理的槽編號范圍內,則把數據保存到數據槽中,然后返回執行結果 如果在自己管理的槽編號范圍外,則會把數據發送給正確的節點,由正確的節點來把數據保存在對應的槽中
需要注意的是:Redis Cluster的節點之間會共享消息,每個節點都會知道是哪個節點負責哪個范圍內的數據槽
虛擬槽分布方式中,由於每個節點管理一部分數據槽,數據保存到數據槽中。當節點擴容或者縮容時,對數據槽進行重新分配遷移即可,數據不會丟失。
虛擬槽分區特點:
使用服務端管理節點,槽,數據:例如Redis Cluster
可以對數據打散,又可以保證數據分布均勻
2.3 順序分布與哈希分布的對比
3.Redis Cluster基本架構
3.1 節點
Redis Cluster是分布式架構:即Redis Cluster中有多個節點,每個節點都負責進行數據讀寫操作
每個節點之間會進行通信。
3.2 meet操作
節點之間會相互通信
meet操作是節點之間完成相互通信的基礎,meet操作有一定的頻率和規則
3.3 分配槽
把16384個槽平均分配給節點進行管理,每個節點只能對自己負責的槽進行讀寫操作
由於每個節點之間都彼此通信,每個節點都知道另外節點負責管理的槽范圍
客戶端訪問任意節點時,對數據key按照CRC16規則進行hash運算,然后對運算結果對16383進行取作,如果余數在當前訪問的節點管理的槽范圍內,則直接返回對應的數據
如果不在當前節點負責管理的槽范圍內,則會告訴客戶端去哪個節點獲取數據,由客戶端去正確的節點獲取數據
3.4 復制
保證高可用,每個主節點都有一個從節點,當主節點故障,Cluster會按照規則實現主備的高可用性
對於節點來說,有一個配置項:cluster-enabled,即是否以集群模式啟動
3.5 客戶端路由
3.5.1 moved重定向
1.每個節點通過通信都會共享Redis Cluster中槽和集群中對應節點的關系
2.客戶端向Redis Cluster的任意節點發送命令,接收命令的節點會根據CRC16規則進行hash運算與16383取余,計算自己的槽和對應節點 3.如果保存數據的槽被分配給當前節點,則去槽中執行命令,並把命令執行結果返回給客戶端 4.如果保存數據的槽不在當前節點的管理范圍內,則向客戶端返回moved重定向異常 5.客戶端接收到節點返回的結果,如果是moved異常,則從moved異常中獲取目標節點的信息 6.客戶端向目標節點發送命令,獲取命令執行結果
需要注意的是:客戶端不會自動找到目標節點執行命令
槽命中:直接返回
[root@mysql ~]# redis-cli -p 9002 cluster keyslot hello (integer) 866
槽不命中:moved異常
[root@mysql ~]# redis-cli -p 9002 cluster keyslot php (integer) 9244
[root@mysql ~]# redis-cli -c -p 9002 127.0.0.1:9002> cluster keyslot hello (integer) 866 127.0.0.1:9002> set hello world -> Redirected to slot [866] located at 192.168.81.100:9003 OK 192.168.81.100:9003> cluster keyslot python (integer) 7252 192.168.81.100:9003> set python best -> Redirected to slot [7252] located at 192.168.81.101:9002 OK 192.168.81.101:9002> get python "best" 192.168.81.101:9002> get hello -> Redirected to slot [866] located at 192.168.81.100:9003 "world" 192.168.81.100:9003> exit [root@mysql ~]# redis-cli -p 9002 127.0.0.1:9002> cluster keyslot python (integer) 7252 127.0.0.1:9002> set python best OK 127.0.0.1:9002> set hello world (error) MOVED 866 192.168.81.100:9003 127.0.0.1:9002> exit [root@mysql ~]#
3.5.2 ask重定向
在對集群進行擴容和縮容時,需要對槽及槽中數據進行遷移
當客戶端向某個節點發送命令,節點向客戶端返回moved異常,告訴客戶端數據對應的槽的節點信息
如果此時正在進行集群擴展或者縮空操作,當客戶端向正確的節點發送命令時,槽及槽中數據已經被遷移到別的節點了,就會返回ask,這就是ask重定向機制
步驟:
1.客戶端向目標節點發送命令,目標節點中的槽已經遷移支別的節點上了,此時目標節點會返回ask轉向給客戶端
2.客戶端向新的節點發送Asking命令給新的節點,然后再次向新節點發送命令
3.新節點執行命令,把命令執行結果返回給客戶端
moved異常與ask異常的相同點和不同點
兩者都是客戶端重定向
moved異常:槽已經確定遷移,即槽已經不在當前節點
ask異常:槽還在遷移中
3.5.3 smart智能客戶端
使用智能客戶端的首要目標:追求性能
從集群中選一個可運行節點,使用Cluster slots初始化槽和節點映射
將Cluster slots的結果映射在本地,為每個節點創建JedisPool,相當於為每個redis節點都設置一個JedisPool,然后就可以進行數據讀寫操作
讀寫數據時的注意事項:
每個JedisPool中緩存了slot和節點node的關系
key和slot的關系:對key進行CRC16規則進行hash后與16383取余得到的結果就是槽 JedisCluster啟動時,已經知道key,slot和node之間的關系,可以找到目標節點 JedisCluster對目標節點發送命令,目標節點直接響應給JedisCluster 如果JedisCluster與目標節點連接出錯,則JedisCluster會知道連接的節點是一個錯誤的節點 此時JedisCluster會隨機節點發送命令,隨機節點返回moved異常給JedisCluster JedisCluster會重新初始化slot與node節點的緩存關系,然后向新的目標節點發送命令,目標命令執行命令並向JedisCluster響應 如果命令發送次數超過5次,則拋出異常"Too many cluster redirection!"
3.6 多節點命令實現
Redis Cluster不支持使用scan命令掃描所有節點
多節點命令就是在在所有節點上都執行一條命令
批量操作優化
3.6.1 串行mget
定義for循環,遍歷所有的key,分別去所有的Redis節點中獲取值並進行匯總,簡單,但是效率不高,需要n次網絡時間
3.6.2 串行IO
對串行mget進行優化,在客戶端本地做內聚,對每個key進行CRC16hash,然后與16383取余,就可以知道哪個key對應的是哪個槽
本地已經緩存了槽與節點的對應關系,然后對key按節點進行分組,成立子集,然后使用pipeline把命令發送到對應的node,需要nodes次網絡時間,大大減少了網絡時間開銷
3.6.3 並行IO
並行IO是對串行IO的一個優化,把key分組之后,根據節點數量啟動對應的線程數,根據多線程模式並行向node節點請求數據,只需要1次網絡時間
3.6.4 hash_tag
將key進行hash_tag的包裝,然后把tag用大括號括起來,保證所有的key只向一個node請求數據,這樣執行類似mget命令只需要去一個節點獲取數據即可,效率更高
3.6.5 四種優化方案優缺點分析
3.7 故障發現
Redis Cluster通過ping/pong消息實現故障發現:不需要sentinel
ping/pong不僅能傳遞節點與槽的對應消息,也能傳遞其他狀態,比如:節點主從狀態,節點故障等
故障發現就是通過這種模式來實現,分為主觀下線和客觀下線
3.7.1 主觀下線
某個節點認為另一個節點不可用,'偏見',只代表一個節點對另一個節點的判斷,不代表所有節點的認知
主觀下線流程:
1.節點1定期發送ping消息給節點2 2.如果發送成功,代表節點2正常運行,節點2會響應PONG消息給節點1,節點1更新與節點2的最后通信時間 3.如果發送失敗,則節點1與節點2之間的通信異常判斷連接,在下一個定時任務周期時,仍然會與節點2發送ping消息 4.如果節點1發現與節點2最后通信時間超過node-timeout,則把節點2標識為pfail狀態
3.7.2 客觀下線
當半數以上持有槽的主節點都標記某節點主觀下線時,可以保證判斷的公平性
集群模式下,只有主節點(master)才有讀寫權限和集群槽的維護權限,從節點(slave)只有復制的權限
客觀下線流程:
1.某個節點接收到其他節點發送的ping消息,如果接收到的ping消息中包含了其他pfail節點,這個節點會將主觀下線的消息內容添加到自身的故障列表中,故障列表中包含了當前節點接收到的每一個節點對其他節點的狀態信息 2.當前節點把主觀下線的消息內容添加到自身的故障列表之后,會嘗試對故障節點進行客觀下線操作
故障列表的周期為:集群的node-timeout * 2,保證以前的故障消息不會對周期內的故障消息造成影響,保證客觀下線的公平性和有效性
3.8 故障恢復
3.8.1 資格檢查
對從節點的資格進行檢查,只有難過檢查的從節點才可以開始進行故障恢復
每個從節點檢查與故障主節點的斷線時間
超過cluster-node-timeout * cluster-slave-validity-factor數字,則取消資格
cluster-node-timeout默認為15秒,cluster-slave-validity-factor默認值為10
如果這兩個參數都使用默認值,則每個節點都檢查與故障主節點的斷線時間,如果超過150秒,則這個節點就沒有成為替換主節點的可能性
3.9.2 准備選舉時間
使偏移量最大的從節點具備優先級成為主節點的條件
3.8.3 選舉投票
對選舉出來的多個從節點進行投票,選出新的主節點
3.8.4 替換主節點
當前從節點取消復制變成離節點(slaveof no one)
執行cluster del slot撤銷故障主節點負責的槽,並執行cluster add slot把這些槽分配給自己 向集群廣播自己的pong消息,表明已經替換了故障從節點
3.8.5 故障轉移演練
對某一個主節點執行kill -9 {pid}來模擬宕機的情況
3.9 Redis Cluster的缺點
當節點數量很多時,性能不會很高
解決方式:使用智能客戶端。智能客戶端知道由哪個節點負責管理哪個槽,而且當節點與槽的映射關系發生改變時,客戶端也會知道這個改變,這是一種非常高效的方式
4.搭建Redis Cluster
搭建Redis Cluster有兩種安裝方式
cluster-require-full-coverage默認為yes,即是否集群中的所有節點都是在線狀態且16384個槽都處於服務狀態時,集群才會提供服務
集群中16384個槽全部處於服務狀態,保證集群完整性
當某個節點故障或者正在故障轉移時獲取數據會提示:(error)CLUSTERDOWN The cluster is down
建議把cluster-require-full-coverage設置為no
5.2 帶寬消耗
Redis Cluster節點之間會定期交換Gossip消息,以及做一些心跳檢測
官方建議Redis Cluster節點數量不要超過1000個,當集群中節點數量過多時,會產生不容忽視的帶寬消耗
消息發送頻率:節點發現與其他節點最后通信時間超過cluster-node-timeout /2時,會直接發送PING消息
消息數據量:slots槽數組(2kb空間)和整個集群1/10的狀態數據(10個節點狀態數據約為1kb)
節點部署的機器規模:集群分布的機器越多且每台機器划分的節點數越均勻,則集群內整體的可用帶寬越高
帶寬優化:
避免使用'大'集群:避免多業務使用一個集群,大業務可以多集群 cluster-node-timeout:帶寬和故障轉移速度的均衡 盡量均勻分配到多機器上:保證高可用和帶寬
5.3 Pub/Sub廣播
在任意一個cluster節點執行publish,則發布的消息會在集群中傳播,集群中的其他節點都會訂閱到消息,這樣節點的帶寬的開銷會很大
publish在集群每個節點廣播,加重帶寬
解決辦法:需要使用Pub/Sub時,為了保證高可用,可以單獨開啟一套Redis Sentinel
5.4 集群傾斜
對於分布式數據庫來說,存在傾斜問題是比較常見的
集群傾斜也就是各個節點使用的內存不一致
5.4.1 數據傾斜原因
1.節點和槽分配不均,如果使用redis-trib.rb工具構建集群,則出現這種情況的機會不多
redis-trib.rb info ip:port查看節點,槽,鍵值分布 redis-trib.rb rebalance ip:port進行均衡(謹慎使用)
2.不同槽對應鍵值數量差異比較大
CRC16算法正常情況下比較均勻
可能存在hash_tag
cluster countkeysinslot {slot}獲取槽對應鍵值個數
3.包含bigkey:例如大字符串,幾百萬的元素的hash,set等
在從節點:redis-cli --bigkeys 優化:優化數據結構
4.內存相關配置不一致
hash-max-ziplist-value:滿足一定條件情況下,hash可以使用ziplist set-max-intset-entries:滿足一定條件情況下,set可以使用intset 在一個集群內有若干個節點,當其中一些節點配置上面兩項優化,另外一部分節點沒有配置上面兩項優化 當集群中保存hash或者set時,就會造成節點數據不均勻 優化:定期檢查配置一致性
5.請求傾斜:熱點key
重要的key或者bigkey Redis Cluster某個節點有一個非常重要的key,就會存在熱點問題
5.4.2 集群傾斜優化:
避免bigkey 熱鍵不要用hash_tag 當一致性不高時,可以用本地緩存+ MQ(消息隊列)
5.5 集群讀寫分離
只讀連接:集群模式下,從節點不接受任何讀寫請求
當向從節點執行讀請求時,重定向到負責槽的主節點
readonly命令可以讀:連接級別命令,當連接斷開之后,需要再次執行readonly命令
讀寫分離:
同樣的問題:復制延遲,讀取過期數據,從節點故障
修改客戶端:cluster slaves {nodeId}
5.6 數據遷移
官方遷移工具:redis-trib.rb和import
只能從單機遷移到集群
不支持在線遷移:source需要停寫
不支持斷點續傳
單線程遷移:影響深度
在線遷移:
唯品會:redis-migrate-tool
豌豆莢:redis-port
5.7 集群VS單機
集群的限制:
key批量操作支持有限:例如mget,mset必須在一個slot key事務和Lua支持有限:操作的key必須在一個節點 key是數據分區的最小粒度:不支持bigkey分區 不支持多個數據庫:集群模式下只有一個db0 復制只支持一層:不支持樹形復制結構 Redis Cluster滿足容量和性能的擴展性,很多業務'不需要' 大多數時客戶端性能會'降低' 命令無法跨節點使用:mget,keys,scan,flush,sinter等 Lua和事務無法跨節點使用 客戶端維護更復雜:SDK和應用本身消耗(例如更多的連接池)
很多場景Redis Sentinel已經夠用了
6.Redis Cluster總結:
1.Redis Cluster數據分區規則采用虛擬槽方式(16384個槽),每個節點負責一部分槽和相關數據,實現數據和請求的負載均衡 2.搭建Redis Cluster划分四個步驟:准備節點,meet操作,分配槽,復制數據。 3.Redis官方推薦使用redis-trib.rb工具快速搭建Redis Cluster 4.集群伸縮通過在節點之間移動槽和相關數據實現 擴容時根據槽遷移計划把槽從源節點遷移到新節點 收縮時如果下線的節點有負責的槽需要遷移到其他節點,再通過cluster forget命令讓集群內所有節點忘記被下線節點 5.使用smart客戶端操作集群過到通信效率最大化,客戶端內部負責計算維護鍵,槽以及節點的映射,用於快速定位到目標節點 6.集群自動故障轉移過程分為故障發現和節點恢復。節點下線分為主觀下線和客觀下線,當超過半數節點認為故障節點為主觀下線時,標記這個節點為客觀下線狀態。從節點負責對客觀下線的主節點觸發故障恢復流程,保證集群的可用性 7.開發運維常見問題包括:超大規模集群帶席消耗,pub/sub廣播問題,集群傾斜問題,單機和集群對比等