Ultra-Scalable Spectral Clustering and Ensemble Clustering

本文轉載自查看原文 2019-09-11 14:57 538 論文筆記

1.Abstract:

在U-SPEC中，針對稀疏相似子矩陣的構造，提出了一種混合代表選擇策略和k -最近鄰代表的快速逼近方法。將稀疏相似子矩陣解釋為二部圖，利用轉移割對圖進行有效分割，得到聚類結果:

在U-SENC中，多個U-SPEC聚類器被進一步集成到一個集成聚類框架中，在保持高效的同時增強了U-SPEC的魯棒性。基於多U-SEPC s的集成生成，構造了一種新的目標與基簇之間的二部圖，並對其進行有效分割，達到了一致的聚類結果

U-SPEC和U-SENC都具有近乎線性的時間和空間復雜度

2.Inrtoduction

譜聚類算法因其在處理非線性可分數據集方面具有良好的處理能力，然而，傳統光譜聚類的一個關鍵限制是其巨大的時間和空間復雜度;譜聚類的通常包括兩個耗時和消耗內存的階段，即相似矩陣構建和特征分解。構建相似矩陣一般需要時間和內存，求解特征分解問題需要時間和內存，其中N為數據大小，d為維度。隨着數據量N的增加，譜聚類的計算量也隨之增加。

為了減輕譜聚類的巨大計算負擔，常用的策略是：1.稀疏化相似矩陣，用稀疏的特征解算器求解特征分解問題。矩陣稀疏化策略可以降低存儲矩陣的內存成本，便於特征分解，但仍然需要計算原相似矩陣中的所有項。2.是基於子矩陣構造：從原始數據集中隨機選擇p個代表，構建一個n*p相似子矩陣，landmark based spectral clustering(LSC)方法對數據集執行k-means，得到p個聚類中心作為p個代表。然而，這些基於子矩陣的譜聚類方法通常受到復雜度瓶頸(N*p)的限制，這是它們處理超大規模數據集的一個關鍵障礙，在超大規模數據集中，為了獲得更好的近似通常需要更大的p。此外，這些方法的聚類結果嚴重依賴於子矩陣的一次逼近（逼近實際的n*n矩陣），這對聚類魯棒性造成了不穩定因素。

本文提出了兩種新的大規模算法，即超可伸縮譜聚類(U-SPEC)和超可伸縮集成聚類(U-SENC)。在U-SPEC中，提出了一種新的混合代表選擇策略，有效地找到一組p個代表，降低了基於k均值的選擇從到的時間復雜度。然后，設計了一種 K-nearest 的快速逼近方法，有效地建立了一個具有時間和內存的稀疏子矩陣。稀疏的子矩陣作為cross-affinity矩陣,構造bipartite graph之間的數據集和代表集。通過兩部圖結構transfer cut解決矩陣分解計算量過大的問題, 最后，采用k均值離散化方法構造了一組k個特征向量的聚類結果，該方法耗時。集成：此外，為了超越U-SPEC的一次性逼近，提供更好的聚類魯棒性，提出了U-SENC算法，將多個U-SPEC聚類器集成到一個統一的集成聚類框架中，該框架的時間和空間復雜度主要由和控制。

即：

新的混合代表選擇策略：找出p個代表

K-nearest 的快速逼近方法：建立了一個np稀疏子矩陣

bipartite graph 的 transfer cut：將np子矩陣解釋為二部圖，並對其進行有效分割，得到最終的聚類結果

3.PROPOSED FRAMEWORK

3.1新的混合代表選擇策略：

FIG1:圖a紅點為隨機選擇的代表點，圖b為k_means質心選擇出來的代表點，圖c為混合方法結果

隨機的代表選擇雖然計算效率高，但固有的隨機性可能導致一組低質量的代表；而k_means耗時；而混合方法是先從總數據集中隨機抽出一部分數據，再在抽出的部分數據中用k_means學出p個質心作為代表.如圖2。

3.2 Approximation of K-Nearest Representatives

得到p個代表后，下一個目標是通過p個代表對整個數據集的兩兩關系進行編碼，

以往方法子矩陣表示中，對象與代表之間的Np相似子矩陣需要O(Npd)時間和O(Np)內存；后來提出用K-Nearest稀疏np相似度矩陣(每個對象只與其k個最近的代表相連接)，然而，這仍然需要計算N個對象到p個代表之間的所有距離。此外，除了計算Np項總數外，稀疏化步驟還消耗O(NpK)時間；(Ps:注意傳統的knn與K-Nearest 有共同特征，但在實際應用中面臨不同問題；在子矩陣構造問題中傳統knn不適用，因為結構的不平衡p遠遠小於N.)

為了打破效率瓶頸，這里的關鍵問題是如何在用K-Nearest的代表構建子矩陣時，顯著減少這些中間項的計算.我們提出了一種基於由粗到細機制的K-Nearest表示逼近方法，並用該方法建立了稀疏親和子矩陣

:我們的k -最近鄰代表近似的主要思想是先找到最近鄰的區域（將p個代表點聚類，計算樣本和P個聚類中心的距離選出最近的簇），然后在最近鄰的區域內找到最近的代表(定義為)（在最近的代表簇中計算出最近的點），最后在的鄰域內找到k -最近鄰代表（在最近的點附近k個值作為選中的點）。

3.3 Bipartite Graph Partitioning

：第j個代表

：第i個樣本

這部分待續

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 Clustering[Spectral Clustering] Spectral Clustering 譜聚類(spectral clustering) 譜聚類算法(Spectral Clustering) 譜聚類算法(Spectral Clustering) 譜聚類(Spectral Clustering)詳解譜聚類（Spectral clustering）（1）：RatioCut 譜聚類（Spectral clustering）（2）:NCut 【聚類算法】譜聚類(Spectral Clustering) 譜聚類算法(Spectral Clustering)優化與擴展