隨着memcache、Redis以及其它一些內存K/V數據庫的流行,一致性哈希也越來越被開發者所了解。因為這些內存K/V數據庫大多不提供分布式支持(本文以redis為例),所以如果要提供多台redis server來提供服務的話,就需要解決如何將數據分散到redis server,並且在增減redis server時如何最大化的不令數據重新分布,這將是本文討論的范疇。
取模算法
取模運算通常用於得到某個半開區間內的值:m % n = v,其中n不為0,值v的半開區間為:[0, n)。取模運算的算法很簡單:有正整數k,並令k使得k和n的乘積最大但不超過m,則v的值為:m - kn。比如1 % 5,令k = 0,則k * 5的乘積最大並不超過1,故結果v = 1 - 0 * 5 = 1。
我們在分表時也會用到取模運算。如一個表要划分三個表,則可對3進行取模,因為結果總是在[0, 3)之內,也就是取值為:0、1、2。
但是對於應用到redis上,這種方式就不行了,因為太容易沖突了。
哈希(Hash)
Hash,一般翻譯做“散列”,也有直接音譯為"哈希"的,就是把任意長度的輸入(又叫做預映射, pre-image),通過散列算法,變換成固定長度的輸出,該輸出就是散列值。這種轉換是一種壓縮映射,也就是散列值的空間通常遠小於輸入的空間,不同的輸入可能會散列成相同的輸出,而不可能從散列值來唯一的確定輸入值。
簡單的說就是一種將任意長度的消息壓縮到某一固定長度的消息摘要的函數。
目前普遍采用的哈希算法是time33,又稱DJBX33A (Daniel J. Bernstein, Times 33 with Addition)。這個算法被廣泛運用於多個軟件項目,Apache、Perl和Berkeley DB等。對於字符串而言這是目前所知道的最好的哈希算法,原因在於該算法的速度非常快,而且分類非常好(沖突小,分布均勻)。
PHP
內核就采用了time33算法來實現HashTable,來看下time33的定義:
[php] view plain copy
- hash(i) = hash(i-1) * 33 + str[i]
有了定義就容易實現了:
[php] view plain copy
- <?php
- function myHash($str) {
- // hash(i) = hash(i-1) * 33 + str[i]
- $hash = 0;
- $s = md5($str);
- $seed = 5;
- $len = 32;
- for ($i = 0; $i < $len; $i++) {
- // (hash << 5) + hash 相當於 hash * 33
- //$hash = sprintf("%u", $hash * 33) + ord($s{$i});
- //$hash = ($hash * 33 + ord($s{$i})) & 0x7FFFFFFF;
- $hash = ($hash << $seed) + $hash + ord($s{$i});
- }
- return $hash & 0x7FFFFFFF;
- }
- echo myHash("test"); //輸出 786776064
利用取模實現
現在有2台redis server,所以需要計算鍵的hash並跟2取模。比如有鍵key1和key2,代碼如下:
[php] view plain copy
- <?php
- function myHash($str) {
- // hash(i) = hash(i-1) * 33 + str[i]
- $hash = 0;
- $s = md5($str);
- $seed = 5;
- $len = 32;
- for ($i = 0; $i < $len; $i++) {
- // (hash << 5) + hash 相當於 hash * 33
- //$hash = sprintf("%u", $hash * 33) + ord($s{$i});
- //$hash = ($hash * 33 + ord($s{$i})) & 0x7FFFFFFF;
- $hash = ($hash << $seed) + $hash + ord($s{$i});
- }
- return $hash & 0x7FFFFFFF;
- }
- echo "key1: " . (myHash("key1") % 2) . "\n";
- echo "key2: " . (myHash("key2") % 2) . "\n";
對於key1和key2來說,同時存儲到一台服務器上,這似乎沒什么問題,但正因為key1和key2是始終存儲到這台服務器上,一旦這台服務器下線了,則這台服務器上的數據全部要重新定位到另一台服務器。對於增加服務器也是類似的情況。而且重新hash(之前跟2進行hash,現在是跟3進行hash)之后,結果就變掉了,導致大多數數據需要重新定位到redis server。
在服務器數量不變的時候,這種方式也是能很好的工作的。
一致性哈希
由於hash算法結果一般為unsigned int型,因此對於hash函數的結果應該均勻分布在[0,2^32-1]區間,如果我們把一個圓環用2^32 個點來進行均勻切割,首先按照hash(key)函數算出服務器(節點)的哈希值, 並將其分布到0~2^32的圓環上。
用同樣的hash(key)函數求出需要存儲數據的鍵的哈希值,並映射到圓環上。然后從數據映射到的位置開始順時針查找,將數據保存到找到的第一個服務器(節點)上。如圖所示:

key1、key2、key3和server1、server2通過hash都能在這個圓環上找到自己的位置,並且通過順時針的方式來將key定位到server。按上圖來說,key1和key2存儲到server1,而key3存儲到server2。如果新增一台server,hash后在key1和key2之間,則只會影響key1(key1將會存儲在新增的server上),其它不變。
上圖這個圓環相當於是一個排好序的數組,我們先通過代碼來看下key1、key2、key3、server1、server2的hash值,然后再作分析:
[php] view plain copy
- <?php
- function myHash($str) {
- // hash(i) = hash(i-1) * 33 + str[i]
- $hash = 0;
- $s = md5($str);
- $seed = 5;
- $len = 32;
- for ($i = 0; $i < $len; $i++) {
- // (hash << 5) + hash 相當於 hash * 33
- //$hash = sprintf("%u", $hash * 33) + ord($s{$i});
- //$hash = ($hash * 33 + ord($s{$i})) & 0x7FFFFFFF;
- $hash = ($hash << $seed) + $hash + ord($s{$i});
- }
- return $hash & 0x7FFFFFFF;
- }
- //echo myHash("卻道天涼好個秋~");
- echo "key1: " . myHash("key1") . "\n";
- echo "key2: " . myHash("key2") . "\n";
- echo "key3: " . myHash("key3") . "\n";
- echo "serv1: " . myHash("server1") . "\n";
- echo "serv2: " . myHash("server2") . "\n";
現在我們根據hash值重新畫一張在圓環上的分布圖,如下所示:

key1、key2和key3都存儲到了server1上,這是正確的,因為是按順時針來定位。我們想像一下,所有的server其實就是一個排好序的數組(降序):[server2, server1],然后通過計算key的hash值來得到處於哪個server上。來分析下定位過程:如果只有一台server,即[server],則直接定位,取數組的第一個元素。如果有多台server,則要先看通過key計算的hash值是否落在[server2, server1, ...]這個區間上,這個直接跟數組的第一個元素和最后一個元素比較就知道了。然后就可以通過查找來定位了。
利用一致性哈希實現
下面是一個實現一致性哈希的例子,僅僅實現了addServer和find。其實對於remove的實現跟addServer是類似的。代碼如下:
[php] view plain copy
- <?php
- function myHash($str) {
- // hash(i) = hash(i-1) * 33 + str[i]
- $hash = 0;
- $s = md5($str);
- $seed = 5;
- $len = 32;
- for ($i = 0; $i < $len; $i++) {
- // (hash << 5) + hash 相當於 hash * 33
- //$hash = sprintf("%u", $hash * 33) + ord($s{$i});
- //$hash = ($hash * 33 + ord($s{$i})) & 0x7FFFFFFF;
- $hash = ($hash << $seed) + $hash + ord($s{$i});
- }
- return $hash & 0x7FFFFFFF;
- }
- class ConsistentHash {
- // server列表
- private $_server_list = array();
- // 延遲排序,因為可能會執行多次addServer
- private $_layze_sorted = FALSE;
- public function addServer($server) {
- $hash = myHash($server);
- $this->_layze_sorted = FALSE;
- if (!isset($this->_server_list[$hash])) {
- $this->_server_list[$hash] = $server;
- }
- return $this;
- }
- public function find($key) {
- // 排序
- if (!$this->_layze_sorted) {
- asort($this->_server_list);
- $this->_layze_sorted = TRUE;
- }
- $hash = myHash($key);
- $len = sizeof($this->_server_list);
- if ($len == 0) {
- return FALSE;
- }
- $keys = array_keys($this->_server_list);
- $values = array_values($this->_server_list);
- // 如果不在區間內,則返回最后一個server
- if ($hash <= $keys[0] || $hash >= $keys[$len - 1]) {
- return $values[$len - 1];
- }
- foreach ($keys as $key=>$pos) {
- $next_pos = NULL;
- if (isset($keys[$key + 1]))
- {
- $next_pos = $keys[$key + 1];
- }
- if (is_null($next_pos)) {
- return $values[$key];
- }
- // 區間判斷
- if ($hash >= $pos && $hash <= $next_pos) {
- return $values[$key];
- }
- }
- }
- }
- $consisHash = new ConsistentHash();
- $consisHash->addServer("serv1")->addServer("serv2")->addServer("server3");
- echo "key1 at " . $consisHash->find("key1") . ".\n";
- echo "key2 at " . $consisHash->find("key2") . ".\n";
- echo "key3 at " . $consisHash->find("key3") . ".\n";
[php] view plain copy
- $ php -f test.php
- key1 at server3.
- key2 at server3.
- key3 at serv2.
即使新增或下線服務器,也不會影響全部,只要根據hash順時針定位就可以了。
結束語
經常有人問在有多台redis server時,新增或刪除節點如何通知其它節點。之所以會這么問,是因為不了解redis的部署方式。