Ultra-Scalable Spectral Clustering and Ensemble Clustering
1.Abstract:
在U-SPEC中,針對稀疏相似子矩陣的構造,提出了一種混合代表選擇策略和k -最近鄰代表的快速逼近方法。將稀疏相似子矩陣解釋為二部圖,利用轉移割對圖進行有效分割,得到聚類結果:
在U-SENC中,多個U-SPEC聚類器被進一步集成到一個集成聚類框架中,在保持高效的同時增強了U-SPEC的魯棒性。基於多U-SEPC s的集成生成,構造了一種新的目標與基簇之間的二部圖,並對其進行有效分割,達到了一致的聚類結果
U-SPEC和U-SENC都具有近乎線性的時間和空間復雜度
2.Inrtoduction
譜聚類算法因其在處理非線性可分數據集方面具有良好的處理能力,然而,傳統光譜聚類的一個關鍵限制是其巨大的時間和空間復雜度;譜聚類的通常包括兩個耗時和消耗內存的階段,即相似矩陣構建和特征分解。構建相似矩陣一般需要時間和
內存,求解特征分解問題需要
時間和
內存,其中N為數據大小,d為維度。隨着數據量N的增加,譜聚類的計算量也隨之增加。
為了減輕譜聚類的巨大計算負擔,常用的策略是:1.稀疏化相似矩陣,用稀疏的特征解算器求解特征分解問題。矩陣稀疏化策略可以降低存儲矩陣的內存成本,便於特征分解,但仍然需要計算原相似矩陣中的所有項。2.是基於子矩陣構造:從原始數據集中隨機選擇p個代表,構建一個n*p相似子矩陣,landmark based spectral clustering(LSC)方法對數據集執行k-means,得到p個聚類中心作為p個代表。然而,這些基於子矩陣的譜聚類方法通常受到復雜度瓶頸(N*p)的限制,這是它們處理超大規模數據集的一個關鍵障礙,在超大規模數據集中,為了獲得更好的近似通常需要更大的p。此外,這些方法的聚類結果嚴重依賴於子矩陣的一次逼近(逼近實際的n*n矩陣),這對聚類魯棒性造成了不穩定因素。
本文提出了兩種新的大規模算法,即超可伸縮譜聚類(U-SPEC)和超可伸縮集成聚類(U-SENC)。在U-SPEC中,提出了一種新的混合代表選擇策略,有效地找到一組p個代表,降低了基於k均值的選擇從到
的時間復雜度。 然后,設計了一種 K-nearest 的快速逼近方法,有效地建立了一個具有
時間和
內存的稀疏子矩陣。稀疏的子矩陣作為cross-affinity矩陣,構造bipartite graph之間的數據集和代表集。通過兩部圖結構transfer cut解決矩陣分解計算量過大的問題, 最后,采用k均值離散化方法構造了一組k個特征向量的聚類結果,該方法耗時
。集成:此外,為了超越U-SPEC的一次性逼近,提供更好的聚類魯棒性,提出了U-SENC算法,將多個U-SPEC聚類器集成到一個統一的集成聚類框架中,該框架的時間和空間復雜度主要由
和
控制。
即:
新的混合代表選擇策略:找出p個代表
K-nearest 的快速逼近方法:建立了一個np稀疏子矩陣
bipartite graph 的 transfer cut:將np子矩陣解釋為二部圖,並對其進行有效分割,得到最終的聚類結果
3.PROPOSED FRAMEWORK
3.1新的混合代表選擇策略:
FIG1:圖a紅點為隨機選擇的代表點,圖b為k_means質心選擇出來的代表點,圖c為混合方法結果
隨機的代表選擇雖然計算效率高,但固有的隨機性可能導致一組低質量的代表;而k_means耗時;而混合方法是先從總數據集中隨機抽出一部分數據,再在抽出的部分數據中用k_means學出p個質心作為代表.如圖2。
3.2 Approximation of K-Nearest Representatives
得到p個代表后,下一個目標是通過p個代表對整個數據集的兩兩關系進行編碼,
以往方法子矩陣表示中,對象與代表之間的Np相似子矩陣需要O(Npd)時間和O(Np)內存;后來提出用K-Nearest稀疏np相似度矩陣(每個對象只與其k個最近的代表相連接),然而,這仍然需要計算N個對象到p個代表之間的所有距離。此外,除了計算Np項總數外,稀疏化步驟還消耗O(NpK)時間;(Ps:注意傳統的knn與K-Nearest 有共同特征,但在實際應用中面臨不同問題;在子矩陣構造問題中傳統knn不適用,因為結構的不平衡p遠遠小於N.)
為了打破效率瓶頸,這里的關鍵問題是如何在用K-Nearest的代表構建子矩陣時,顯著減少這些中間項的計算.我們提出了一種基於由粗到細機制的K-Nearest表示逼近方法,並用該方法建立了稀疏親和子矩陣
:我們的k -最近鄰代表近似的主要思想是先找到最近鄰的區域(將p個代表點聚類,計算樣本和P個聚類中心的距離 選出最近的簇),然后在最近鄰的區域內找到最近的代表(定義為)(在最近的代表簇中計算出最近的點),最后在
的鄰域內找到k -最近鄰代表(在最近的點附近k個值作為選中的點)。
3.3 Bipartite Graph Partitioning
:第j個代表
:第i個樣本
這部分待續