一致性hash和虛擬節點

本文轉載自查看原文 2014-03-04 16:35 3010 cache

consistent hashing 算法的原理

consistent hashing 是一種 hash 算法，簡單的說，在移除 / 添加一個 cache 時，它能夠盡可能小的改變已存在key 映射關系，盡可能的滿足單調性的要求。

下面就來按照 5 個步驟簡單講講 consistent hashing 算法的基本原理。

1 環形hash 空間

考慮通常的 hash 算法都是將 value 映射到一個 32 為的 key 值，也即是 0~2^32-1 次方的數值空間；我們可以將這個空間想象成一個首（ 0 ）尾（ 2^32-1 ）相接的圓環，如下面圖 1 所示的那樣。

圖 1 環形 hash 空間

2 把對象映射到hash 空間

接下來考慮 4 個對象 object1~object4 ，通過 hash 函數計算出的 hash 值 key 在環上的分布如圖 2 所示。

hash(object1) = key1;

… …

hash(object4) = key4;

圖 2 4 個對象的 key 值分布

3 把cache 映射到hash 空間

Consistent hashing 的基本思想就是將對象和 cache 都映射到同一個 hash 數值空間中，並且使用相同的 hash算法。

假設當前有 A,B 和 C 共 3 台 cache ，那么其映射結果將如圖 3 所示，他們在 hash 空間中，以對應的 hash 值排列。

hash(cache A) = key A;

… …

hash(cache C) = key C;

圖 3 cache 和對象的 key 值分布

說到這里，順便提一下 cache 的 hash 計算，一般的方法可以使用 cache 機器的 IP 地址或者機器名作為 hash輸入。

4 把對象映射到cache

現在 cache 和對象都已經通過同一個 hash 算法映射到 hash 數值空間中了，接下來要考慮的就是如何將對象映射到 cache 上面了。

在這個環形空間中，如果沿着順時針方向從對象的 key 值出發，直到遇見一個 cache ，那么就將該對象存儲在這個 cache 上，因為對象和 cache 的 hash 值是固定的，因此這個 cache 必然是唯一和確定的。這樣不就找到了對象和 cache 的映射方法了嗎？！

依然繼續上面的例子（參見圖 3 ），那么根據上面的方法，對象 object1 將被存儲到 cache A 上； object2 和object3 對應到 cache C ； object4 對應到 cache B ；

5 考察cache 的變動

前面講過，通過 hash 然后求余的方法帶來的最大問題就在於不能滿足單調性，當 cache 有所變動時， cache會失效，進而對后台服務器造成巨大的沖擊，現在就來分析分析 consistent hashing 算法。

5.1 移除 cache

考慮假設 cache B 掛掉了，根據上面講到的映射方法，這時受影響的將僅是那些沿 cache B 逆時針遍歷直到下一個 cache （ cache C ）之間的對象，也即是本來映射到 cache B 上的那些對象。

因此這里僅需要變動對象 object4 ，將其重新映射到 cache C 上即可；參見圖 4 。

圖 4 Cache B 被移除后的 cache 映射

5.2 添加 cache

再考慮添加一台新的 cache D 的情況，假設在這個環形 hash 空間中， cache D 被映射在對象 object2 和object3 之間。這時受影響的將僅是那些沿 cache D 逆時針遍歷直到下一個 cache （ cache B ）之間的對象（它們是也本來映射到 cache C 上對象的一部分），將這些對象重新映射到 cache D 上即可。

因此這里僅需要變動對象 object2 ，將其重新映射到 cache D 上；參見圖 5 。

圖 5 添加 cache D 后的映射關系

虛擬節點

考量 Hash 算法的另一個指標是平衡性 (Balance) ，定義如下：

平衡性

　　平衡性是指哈希的結果能夠盡可能分布到所有的緩沖中去，這樣可以使得所有的緩沖空間都得到利用。

hash 算法並不是保證絕對的平衡，如果 cache 較少的話，對象並不能被均勻的映射到 cache 上，比如在上面的例子中，僅部署 cache A 和 cache C 的情況下，在 4 個對象中， cache A 僅存儲了 object1 ，而 cache C 則存儲了object2 、 object3 和 object4 ；分布是很不均衡的。

為了解決這種情況， consistent hashing 引入了“虛擬節點”的概念，它可以如下定義：

“虛擬節點”（ virtual node ）是實際節點在 hash 空間的復制品（ replica ），一實際個節點對應了若干個“虛擬節點”，這個對應個數也成為“復制個數”，“虛擬節點”在 hash 空間中以 hash 值排列。

仍以僅部署 cache A 和 cache C 的情況為例，在圖 4 中我們已經看到， cache 分布並不均勻。現在我們引入虛擬節點，並設置“復制個數”為 2 ，這就意味着一共會存在 4 個“虛擬節點”， cache A1, cache A2 代表了 cache A ； cache C1, cache C2 代表了 cache C ；假設一種比較理想的情況，參見圖 6 。

圖 6 引入“虛擬節點”后的映射關系

此時，對象到“虛擬節點”的映射關系為：

objec1->cache A2 ； objec2->cache A1 ； objec3->cache C1 ； objec4->cache C2 ；

因此對象 object1 和 object2 都被映射到了 cache A 上，而 object3 和 object4 映射到了 cache C 上；平衡性有了很大提高。

引入“虛擬節點”后，映射關系就從 { 對象 -> 節點 } 轉換到了 { 對象 -> 虛擬節點 } 。查詢物體所在 cache 時的映射關系如圖 7 所示。

圖 7 查詢對象所在 cache

“虛擬節點”的 hash 計算可以采用對應節點的 IP 地址加數字后綴的方式。例如假設 cache A 的 IP 地址為202.168.14.241 。

引入“虛擬節點”前，計算 cache A 的 hash 值：

Hash(“202.168.14.241”);

引入“虛擬節點”后，計算“虛擬節”點 cache A1 和 cache A2 的 hash 值：

Hash(“202.168.14.241#1”); // cache A1

Hash(“202.168.14.241#2”); // cache A2

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 一致性hash算法--虛擬節點一致性哈希虛擬節點一致性Hash 什么是一致性hash？一致性哈希算法——虛擬節點一致性Hash算法（轉）一致性哈希(hash)算法什么是一致性Hash算法？一致性hash介紹一致性hash算法