算法思想:
1.初始化功能:把每個點所在集合初始化為其自身。
2.查找功能:查找元素所在的集合,即根節點。
2.合並功能:將兩個元素所在的集合合並為一個集合。
例題:若某個家族人員過於龐大,要判斷兩個是否是親戚,確實不容易,給出某個親戚關系圖,求任意給出的兩個人是否具有親戚關系。
規定:x和y是親戚,y和z是親戚,那么x和z也是親戚。如果x,y是親戚,那么x的親戚都是y的親戚,y的親戚也都是x的親戚。
Input(輸入)
第一行:三個整數n,m,p,(n< =5000,m< =5000,p< =5000)分別表示有n個人,m個親戚關系,詢問p對親戚關系。以下m行:每行兩個數a,b.(1<=a,b<=n),表示a和b具有親戚關系。接下來p行:每行兩個數
a,b。表示詢問a和b是否具有親戚關系。
Output(輸出)
共P行,每行一個’Yes’或’No’。表示第p個詢問的答案為“有”或“沒有”親戚關系。
最后我們得到3個
集合{1,2,3,4}、{5,6,7}、{8,9},於是判斷兩個人是否親戚的問題就變成判斷兩個數是否在同一個集合中的問題.
樣例:
9 7 1
2 4
5 7
1 3
8 9
1 2
5 6
2 3
1 9
我們可以給每個人建立一個集合,集合的元素值有他自己,表示最開始時他不知道任何人是它的親戚。以后每次給出一個親戚關系a, b,則a和他的親戚與b和他的親戚就互為親戚了,將a所在集合與b所在集合合並。對於樣例數據的操作全過程如下:
初始狀態:{1} {2} {3} {4} {5} {6} {7} {8} {9}
輸入關系 分離集合
輸入第二行:2 4 后:{2,4}{1} {3} {5} {6} {7} {8} {9}
輸入第三行:5 7 后:{2,4} {5,7} {1} {3} {6} {8} {9}
輸入第四行:1 3 后: {1,3} {2,4} {5,7}{6} {8} {9}
輸入第五行:8 9 后:{1,3} {2,4} {5,7} {8,9}{6}
輸入第六行:1 2 后: {1,2,3,4} {5,7} {8,9}{6}
輸入第七行:5 6 后:{1,2,3,4} {5,6,7} {8,9}
輸入第八行:2 3 后:{1,2,3,4} {5,6,7} {8,9}
判斷親戚關系
輸入第二行:2 4 后:因為1,9不在同一集合內,所以輸出"NO"。
算法需要以下幾個子過程:
(1) 開始時,為每個人建立一個集合SUB-Make-Set(x);
(2) 得到一個關系a b,合並相應集合SUB-Union(a,b);
(3) 此外我們還需要判斷兩個人是否在同一個
集合中,這就涉及到如何標識集合的問題。我們可以在每個集合中選一個代表標識集合,因此我們需要一個子過程給出每個集合的代表元SUB-Find-Set(a)。於是判斷兩個人是否在同一個集合中,即兩個人是否為親戚,等價於判斷SUB-Find-Set(a)=SUB-Find-Set(b)。
有了以上子過程的支持,我們就有如下算法。
1 //初始化 2 for(int i=0;i<n;i++) 3 { 4 SUB-Make-Set(i); 5 } 6 //合並 7 for(int i=0;i<n;i++) 8 { 9 if(SUB-Find-Set(ai) != SUB-Find-Set(bi)) 10 { 11 SUB-Union(ai, bi); 12 } 13 } 14 15 //詢問 16 fou(int i=0;i<n;i++) 17 { 18 if(SUB-Find-Set(ci)==SUB-Find-Set(di)) 19 { 20 output “Yes” 21 } 22 else 23 { 24 output “No” 25 } 26 }
解決問題的關鍵便為選擇合適的數據結構實現並查集的操作,使算法的實現效率最高。
優化反向
1.
單鏈表實現
一個節點對應一個人,在同一個集合中的節點串成一條鏈表就得到了單鏈表的實現。在集合中我們以單鏈表的第一個節點作為集合的代表元。於是每個節點x(x也是人的編號)應包含這些信息:指向代表元即表首的指針head[x],指向表尾的指針tail[x],下一個節點的指針next[x]。
SUB-Make-Set(x)過程設計如下:
1 SUB-Make-Set(x) 2 { 3 for(int i=0;i<x;i++) 4 { 5 head[x]=x; 6 tail[x]=x; 7 next[x]=0; 8 } 9 }
求代表元的SUB-Find-Set(x)過程設計如下:
1 SUB-Find-Set(x) 2 { 3 return head[x]; 4 }
過程的偽代碼如下:
1 SUB-Union(a,b) 2 { 3 next[tail[head[a]]]=head[b]; 4 int p=head[b]; 5 while(p!=0) 6 { 7 head[p]=head[a]; 8 p=next[p]; 9 } 10 }
整個算法PROBLEM-Relations的
時間復雜度為O(N+M+N^2+Q)=O(N^2+M+Q)。
由於算法的時間復雜度中O(M+Q)是必需的,因此我們要讓算法更快,就要考慮如何使減小O(N^2)。
我們想到合並鏈表時,我們可以用一種啟發式的方法:將較短的表合並到較長表上。為此每個節點中還需包含表的長度的信息。這比較容易實現,我們就不寫出
偽代碼了。
合並鏈表后的
時間復雜度:
首先我們給出一個固定對象x的代表元指針head[x]被更新次數的
上界。由於每次x的代表元指針被更新時,x必然在較小的
集合中,因此x的代表元指針被更新一次后,集合至少含2個元素。類似地,下一次更新后,集合至少含4個元素,繼續下去,當x的代表元指針被更新 log k 次后,集合至少含k個元素,而集合最多含n個元素,所以x的代表元指針至多被更新 log n 次。所以M次SUB-Union(a,b)操作的時間復雜度為O(NlogN+M)。算法總的時間復雜度為O(NlogN+M+Q)。
並查集的另一種更快的實現是用有根樹來表示
集合:每棵樹表示一個集合,樹中的節點對應一個人。
每個節點x包含這些信息:父節點指針p[x],樹的深度rank[x]。其中rank[x]將用於啟發式合並過程。
於是建立集合過程的
時間復雜度依然為O(1)。
1 SUB-Make-Set(x) 2 { 3 for(int i=0;i<x;i++) 4 { 5 p[i]=i; 6 rank[i]=0; 7 } 8 }
用森林的數據結構來實現的最大好處就是降低SUB-Union(a,b)過程的時間復雜度。
1 SUB-Union(a,b) 2 { 3 //SUB-Link(SUB-Find-Set(a),SUB-Find-Set(b)) 4 SUB-Link(a,b) 5 p[a]=b; 6 }
合並
集合的工作只是將a所在樹的根節點的父節點改為b所在樹的根節點。這個操作只需O(1)的時間。而SUB-Union(a,b)的時間效率決定於SUB-Find-Set(x)的快慢。
1 SUB-Find-Set(x) 2 { 3 if(x==p[a]) 4 { 5 return x; 6 } 7 else 8 { 9 return SUB-Find-Set(p[x]); 10 } 11 }
這個過程的時效與樹的深度成線性關系,因此其平均
時間復雜度為O(logN),但在最壞情況下(樹退化成
鏈表),時間復雜度為O(N)。於是PROBLEM-Relations最壞情況的時間復雜度為O(N(M+Q))。有必要對算法進行優化。
第一個優化是啟發式合並。在優化
單鏈表時,我們將較短的表鏈到較長的表尾,在這里我們可以用同樣的方法,將深度較小的樹指到深度較大的樹的根上。這樣可以防止樹的退化,最壞情況不會出現。SUB-Find-Set(x)的時間復雜度為O(log N),PROBLEM-Relations時間復雜度為O(N + logN (M+Q))。SUB-Link(a,b)作相應改動。
1 SUB-Link(a,b) 2 { 3 if(rank[a]>rank[b]) 4 { 5 p[b]=a; 6 rank[b]+=rank[a]; 7 } 8 else 9 { 10 p[a]=b; 11 rank[a]+=rank[b]; 12 } 13 }
然而算法的耗時主要還是花在SUB-Find-Set(x)上。
第二個優化是路徑壓縮。它非常簡單而有效。如圖所示,在SUB-Find-Set(1)時,我們“順便”將節點1, 2, 3的父節點全改為節點4,以后再調用SUB-Find-Set(1)時就只需O(1)的時間。
圖0-0-4
於是SUB-Find-Set(x)的代碼改為:
1 SUB-Find-Set(x) 2 { 3 if(x!=p[x]) 4 { 5 p[x]=SUB-Find-Set(p[x]); 6 } 7 return p[x]; 8 }
該過程首先找到樹的根,然后將路徑上的所有節點的父節點改為這個根。實現時,遞歸的程序有許多棧的操作,改成非遞歸會更快些。
1 SUB-Find-Set(x) 2 { 3 int r=x; 4 while(r!=p[x]) 5 { 6 r=p[r]; 7 } 8 while x?r 9 do q←p[x] 10 p[x]←r 11 x←q 12 return r 13 }
改進后的算法
時間復雜度的分析十分復雜,如果完整的寫出來足可寫一節,這里我們只給出結論:改進后的PROBLEM-Relations其時間復雜度為O(N+(M+Q)*A(M+Q,N)),其中A(M+Q,N)為Ackerman函數的增長極為緩慢的逆函數。你不必了解與Ackerman函數相關的內容,只需知道在任何可想象得到的並查集數據結構的應用中,A(M+Q,N)≤4,因此PROBLEM-Relations的時間復雜度可認為是線性的O(N+M+Q)。
優化路徑壓縮
思想
每次查找的時候,如果路徑較長,則修改信息,以便下次查找的時候速度更快。
實現
第一步,找到根結點。
第二步,修改查找路徑上的所有節點,將它們都指向根結點。
1 int find(int x) 2 { 3 if(fa[x]==x) 4 { 5 return x; 6 } 7 return fa[x]=find(fa[x]); 8 }
模板:
1 /fa[x]表示x的最遠祖先 2 int fa[50002]; 3 //初始化,一開始每個點單獨成集合 4 void build(int qwq) 5 { 6 for(int i=1;i<=qwq;i++) 7 { 8 fa[i]=i; 9 } 10 return ; 11 } 12 //找到x的最遠祖先,並且壓縮路徑 13 int find(int x) 14 { 15 if(fa[x]==x) 16 { 17 return x; 18 } 19 return fa[x]=find(fa[x]); 20 } 21 //判斷x,y是不是在同一個集合里,直接判斷最遠祖先是不是一樣的 22 bool che(int x,int y) 23 { 24 return find(x)==find(y); 25 } 26 //合並x,y,我們在判斷x和y是不是同一個集合里, 27 //路徑壓縮之后fa[x],fa[y]已經是最遠祖先了, 28 //所以直接將fa[x]的父親連接在fa[y]的祖先上 29 void mer(int x,int y) 30 { 31 if(!che(x,y)) 32 { 33 fa[fa[x]]=fa[y]; 34 } 35 return ; 36 }