Chord算法(原理)


Chrod算法是P2P中的四大算法之中的一個,是有MIT(麻省理工學院)於2001年提出,其它三大算法各自是:

Chord的目的是提供一種能在P2P網絡高速定位資源的的算法,Cord並不關心資源是怎樣存儲的,僅僅是從算法層面研究資源的取得,因此Chord的API就簡單到僅僅有一個set、get。

1、Chord是什么?

Chord是一個算法,也是一個協議。作為一個算法,Chord能夠從數學的角度嚴格證明其正確性和收斂性;作為一個協議,Chord具體定義了每一個環節的消息類型。當然,Chord之所以受追捧,另一個主要原因就是Chord足夠簡單,3000行的代碼就足以實現一個完整的Chord。

Chord還能夠被作為一個一致性哈希、分布式哈希(DHT)的實現。

2、覆蓋網絡(overlaynetwork)

覆蓋網絡是指這樣一種網絡:構建在其它網絡之上、網絡節點之間通過虛擬或邏輯連接在一起,比方雲計算、分布式系統都是覆蓋網絡,由於其都構建於TCP/IP之上,且節點之間有聯系。Chord也是構建於覆蓋網絡。

3、結構化與非結構化網絡

非結構化的P2P網絡是指網絡節點之間不存在組織關系,節點之間全然是對等的,比方第一代P2P網絡Napster,這類網絡結構清晰、簡單,但查找沒有多大的優化余地,常常採用全局或分區泛洪查找,查找時間長、且結果難以保證(有可能在找到前就超時)。

 

結構化的P2P網絡與非結構化恰好相反,我們覺得網絡在邏輯上存在一個人為設計的結構,比方Chord假定網絡是一個環,Kadelima則假定為一顆二叉樹,全部的節點均為樹的葉子節點。有了這些邏輯結構,就給我們資源查找引入了很多其它的算法和思路。

4、分布式哈希表(DHT)

DHT的主要想法是把網絡上資源的存取像Hashtable一樣,能夠簡單而高速地進行put、get,該思想的誕生主要是受第一代P2P(Napster)網絡的影響。與一致性哈希相比,DHT更強調的是資源的存取,而無論資源是否是一致性的。與一致性哈希同樣的是,DHT也僅僅是一個概念,詳細細節留給各實現。

當前這些P2P實現能夠被作為DHT的詳細實現,再次再列舉一些有代表性的實現:

  • Chord
  • CAN
  • Tapestry
  • Pastry
  • Apache Cassandra
  • Kadelima
  • P-Grid
  • BitTorrent DHT

5、Chord實現原理

Chord通過把Node和Key映射到同樣的空間而保證一致性哈希,為了保證哈希的非反復性,Chord選擇SHA-1作為哈希函數,SHA-1會產生一個2160的空間,每項為一個16字節(160bit)的大整數。我們能夠覺得這些整數首尾相連形成一個環,稱之為Chord環。整數在Chord環上按大小順時針排列,Node(機器的IP地址和Port)與Key(資源標識)都被哈希到Chord環上,這樣我們就假定了整個P2P網絡的狀態為一個虛擬的環,因此我們說Chord是結構化的P2P網絡。

 

以下有幾個定義:

  • 我們稱Chord環上的每一個節點為標志符
  • 假設某個Node映射到了某個標志符,則繼續稱該標准符為Node
  • 按順時針,節點前面的成為前繼(predecessor),節點后面的成為后繼(successor);同理,第一個predecessor稱之為直接前繼,第一個successor稱之為直接后繼

如圖:

Chord環

紅色點為Node,藍色為標志符。上面僅僅是部分節點和標志符,以節點N1為例說明其Finger表中的successor:

 

No ith successor Successor
1 N1+20  N18 
2 N1+21  N18
3 N1+22  N18
4 N1+23  N18
5 N1+24  N18
6 N1+25  N45
7 N1+26   N1
8 N1+27  N1

 

把Node和Key都映射到一個值域感覺是把狗和貓放在一起衡量,盡管有點怪,但這樣能夠保證一致性哈希,詳細能夠參考前文。

 

非常顯然,分布在Chord環上的Node數遠遠小於標志符數(2160是一個無法衡量的天文數字),這樣Chord環上的Node就會非常稀疏地分布在Chord環上,理論上應該是隨機分布,但如前面一致性哈希的討論,假設節點數量不多,分布肯定是不均勻的,能夠考慮添加虛擬節點來添加其平衡性,假設在節點較多(比方大型的P2P網絡有上百萬的機器)就不必引入虛擬節點。

 

非常顯然,不論什么查找僅僅要沿Chord環一圈結果肯定能夠找到,這種時間復雜度是O(N),N為網絡節點數,但對一個上百萬節點,且節點常常增加、退出的P2P網絡來說,O(N)是不可忍受的,因此Chord提出了以下非線性查找的算法:

  1. 每一個節點都維護一個Finger表,該表長度為m(m就是位數,在Chord中為160),該表的第i項存放節點n的第(n+2i-1) mod 2m個successor(1<=i<=m)
  2. 每一個節點都維護一個predecessor和successor列表,該列表的作用是能高速定位前繼和后繼,並能周期性檢測前繼和后繼的健康狀態
  3. 就是說存放的successor是按2的倍數等比遞增,自所以取模是由於最后的節點的successor是開始的幾個節點,比方最大的一個節點的下一個節點定義為第一個節點
  4. 資源Key存儲在以下的Node上:沿Chord環,hash(Node)>=hash(key)的第一個Node,我們稱這個Node為這個Key的successor
  5. 給定一個Key,按以下的步驟查找其相應的資源位於哪個節點,也就是查找該Key的successor:(假如查找是在節點n上進行)
  • 查看Key的哈希是否落在節點n和其直接successor之間,若是結束查找,n的successor即為所找
  • 在n的Finger表中,找出與hash(Key)距離近期且<hash(Key)的n的successor,該節點也是Finger表中最接近Key的predecessor,把查找請求轉發到該節點
  • 繼續上述過程,直至找到Key相應的節點

從直覺上來說,上次查找過程應該是指數收斂的,相似二分法的查找,收斂速度應該是非常快的;反過來,查找時間或路由復雜度應該是對數即的,在以下我們會證明這一點。

 

下圖表明了節點N1查找節點N53的過程,還是很快的:

節點N1查找N53

 

6、Chord收斂性證明

對一個算法而言,收斂性是至關重要的,假設沒有收斂性做保證,在程序上化再多的心思也是徒勞。在證明之前,我們再強調3點:

  • Key存放在Key的successor節點上(滿足:hash(Node)>=hash(Key))
  • 節點n的第i項存放的是第(n+2i-1)個successor
  • 查找是依據近期原則,當前節點沒有存放Key則從Finger表中尋找與hash(Key)距離近期的Node繼續這個過程

這里要區分是Key的successor還是節點n的successor,同一時候要注意近期匹配原則。

 

假如節點n的Finger表中的第i個successor與Key的距離近期,則滿足:Key處在第i項與第i+1項中間

記第i項為J,第i+1項為P

  • J<hash(Key)
  • P>hash(Key)

而:

J = n + 2i-1

P = n + 2i

節點n與Key的距離應該處在n與J和P的中間,即 J-n<n - hash(Key)<P - n

 

(1) 2i-1<n - hash(Key)<2i

(2) 而J與Key的距離最大為J與P的距離 J-hash(Key) <P - J = 2i-1

也就是說J與Key的距離,小於n與Key的距離,而且該距離小於n與Key距離的一半,這樣我們保證每次迭代,與Key的距離都會收斂,而且至少按2的指數收斂,也就是折半查找。

 

至此,我們理論證明了Chord的收斂性。

 

7、深入Chord算法

事實上Chord算法能夠全然轉換為一個數學問題:

在Chord環上隨意標記個點作為Node集合,隨意指定Node T,從隨意的Node N開始依據Chord查找算法都能找到節點T。

 

為什么能這么轉換呢?由於僅僅要找到了Key的直接前繼,也就算找到了Key,全部問題轉化為一個在Chord環上通過Node找Node的問題。這樣,這個題就立即變的非常奇妙,假如我們把查找的步驟記錄為路徑,又轉化為隨意2個節點之間存在一條最短路徑,而Chord算法事實上就是構造了這樣一條最短路徑,那這種路徑會不會不存在呢?不會的,由於Chord本身是一個環,最差情況能夠通過線性查找保證其收斂性。

 

從最短路徑的角度來看,Chord僅僅是對已存在線性路徑的改進,依據這個思路,我們全然能夠設計出其它的最短路徑算法。從算法本來來看,保證算法收斂或正確性的前提是每一個Node要正確地維護其后繼節點,但在一個大型的P2P網絡中,會有節點的頻繁增加、退出,假設沒有額外的工作,非常難保證每一個節點有正確的后繼。

 

Chord冗余性:

所謂冗余性是指Chord的Finger表中存在無用項,那些處在Node N和其successor之間的項均無意義,由於這些項所代表的successor不存在。比方在N1的Finger表中的第1~5項均不存在,故都指向了N18,至少第1~4項為冗余信息。

一般說來,假如Chord環的大小為2m,節點數為2n,假如節點平均分布在Chord環上,則任一節點N的Finger表中的第i項為冗余的條件為:N+2i-1<N + 2m/2n =>2i-1<2m-n =>i <m-n+1,即當i <m-n+1時才有冗余。

冗余度為:(m-n+1)/m=1-(n-1)/m,一般說來m >>n,所以Chord會存在非常多的冗余信息。假如,網絡上有1024個節點,即n=10,則冗余度為:1-(10-1)/160≈94%。所以非常多論文都指出這一點,並覺得會造成冗余查詢,減少性能。事實上不然,由於這些冗余信息是分布在多個Node的Finger表,假設採取適當的路由算法,對路由計算不會有不論什么影響。

 

至此,我們已經完整地討論了Chord算法及其核心思想,接下來要討論的是Chord的詳細實施。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM