從樣本相似性到圖 根據我們一般的理解,聚類是將相似的樣本歸為一類,或者說使得同類樣本相似度盡量高,異類樣本相似性盡量低。無論如何,我們需要一個方式度量樣本間的相似性。常用的方式就是引入各種度量,如歐氏距離、余弦相似度、高斯度量等等。 度量的選擇提現了你對樣本或者業務的理解。比如說如果你要比 ...
廣義上來說,任何在算法中用到SVD 特征值分解的,都叫SpectralAlgorithm。順便說一下,對於任意矩陣只存在奇異值分解,不存在特征值分解。對於正定的對稱矩陣,奇異值就是特征值,奇異向量就是特征向量。 傳統的聚類算法,如K Means EM算法都是建立在凸球形樣本空間上,當樣本空間不為凸時,算法會陷入局部最優,最終結果受初始參數的選擇影響比較大。而譜聚類可以在任意形狀的樣本空間上聚類,且 ...
2012-08-15 10:18 1 7214 推薦指數:
從樣本相似性到圖 根據我們一般的理解,聚類是將相似的樣本歸為一類,或者說使得同類樣本相似度盡量高,異類樣本相似性盡量低。無論如何,我們需要一個方式度量樣本間的相似性。常用的方式就是引入各種度量,如歐氏距離、余弦相似度、高斯度量等等。 度量的選擇提現了你對樣本或者業務的理解。比如說如果你要比 ...
什么是譜聚類? 就是找到一個合適的切割點將圖進行切割,核心思想就是: 使得切割的邊的權重和最小,對於無向圖而言就是切割的邊數最少,如上所示。但是,切割的時候可能會存在局部最優,有以下兩種方法: (1)RatioCut:核心是要求划分出來的子圖的節點數盡可能的大 分母變為子圖 ...
1. 譜聚類 給你博客園上若干個博客,讓你將它們分成K類,你會怎樣做?想必有很多方法,本文要介紹的是其中的一種——譜聚類。 聚類的直觀解釋是根據樣本間相似度,將它們分成不同組。譜聚類的思想是將樣本看作頂點,樣本間的相似度看作帶權的邊,從而將聚類問題轉為圖分割問題:找到一種圖 ...
前言:以前只是調用過譜聚類算法,我也不懂為什么各家公司都問我一做文字檢測的這個算法具體咋整的,沒整明白還給我掛了哇擦嘞?訊飛還以這個理由刷本寶,今天一怒把它給整吧清楚了,下次誰再問來!說不暈你算我輸! 一、解釋: 譜聚類是一種基於圖論的算法,主要思想是把所有的數據看做空間中的點,這些點 ...
聚類后: ...
引入 聚類算法一般可以分為兩類: Compactness。代表的算法有 K-means,GMM 等。但這類算法只能處理凸集,為了處理非凸的樣本集,必須引⼊核技巧。 Connectivity。這類以 spectral clustering 為代表。 舉個例子,將下述 ...
目錄: 1、問題描述 2、問題轉化 3、划分准則 4、總結 1、問題描述 譜聚類(Spectral Clustering, SC)是一種基於圖論的聚類方法——將帶權無向圖划分為兩個或兩個以上的最優子圖(sub-Graph),使子圖內部盡量相似,而子圖間距離盡量距離較遠,以達到 ...
本文將對譜聚類的知識進行一些總結。目的在於記錄自己的學習經歷,當作自己的筆記來寫。寫得不好的地方歡迎交流指正。譜聚類是一種非常流行的聚類算法,它不需要對簇的類型有很強的假設,可以聚類任何形狀的數據。 一、簡要介紹 由於網上有許多的關於譜聚類的介紹,所以我這里只是簡要介紹 ...