聚類之譜聚類（轉）

本文轉載自查看原文 2017-10-11 13:45 1192 機器學習

從樣本相似性到圖

根據我們一般的理解，聚類是將相似的樣本歸為一類，或者說使得同類樣本相似度盡量高，異類樣本相似性盡量低。無論如何，我們需要一個方式度量樣本間的相似性。常用的方式就是引入各種度量，如歐氏距離、余弦相似度、高斯度量等等。

度量的選擇提現了你對樣本或者業務的理解。比如說如果你要比較兩個用戶對音樂選擇的品味，考慮到有些用戶習慣打高分，有些用戶習慣打低分，那么選擇余弦相似度可能會比歐式距離更合理。

現在我們假設已有的樣本為

這是一個完全圖，我們的目的是去掉一些邊，使得這個圖變成。同一個子圖內的節點歸為一類。因此有兩方面考慮：

子圖內的連邊權重盡量大，即同類樣本間盡量相似
去掉的邊權重盡量小，即異類樣本間盡量不同

一個初步的優化方法是去掉部分權重小的邊，常用的有兩種方式：

現在我們得到一個較為稀疏的圖。
稀疏化后的圖

圖與圖的Laplacian矩陣

為了下一步的算法推導，首先介紹圖的Laplacian矩陣，我們記節點

L (G, W) = ⎛⎝⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜ \sum j \neq 1 n w 1 j - w 21 ⋮ - w n 1

容易看到，矩陣

f' L f = f' D f - f' W f = \sum i = 1 n d i f 2 i - \sum i, j = 1 n f i

優化目標

現在我們來推導我們要優化的目標函數。前面說過，我們的目的是去掉一些邊，使得這個圖變成，我們還希望去掉的邊權重盡量小。為此，假設我們已經把圖分割成立K個連通子圖

{e i, j | \exists k, s t . x i \in A k a n d x j \notin A k}

為了方便，引入記號

W (A, B) = \sum i \in A, j \in B w i j

W (A k, A ¯ k) = \sum i \in A k, j \notin A k w i j

1 2 \sum k = 1 n W ( A k , A ¯ k )

現在的問題就轉換為：找到。不幸的是，存在兩個問題：

這是個NP難問題，沒有有效算法
實際實驗得到的結果常常將單獨的一個樣本分為一類

先來解決第二個問題：
我們實際希望的是，每個類別中的樣本數要充分大，有兩種調整目標函數的方法：

RatioCut，將目標函數改成 $1 2 \sum k = 1 n W ( A k , A ¯ k ) | A k |$
Ncut, 將目標函數改成 $1 2 \sum k = 1 n W ( A k , A ¯ k ) v o l （ A k ）$

兩種方法都使得某個類樣本量少的時候，對應的目標函數項變大。這里我們以第一種方法為例，第二種是類似的。

現在來解決第二個問題：
我們碰到NP難問題的時候，通常是考慮近似解，譜聚類也不例外。首先，我們要引入列向量

h i j = ⎧⎩⎨ 1 | A j |\sqrt 0 x i \in A j x i \notin A j

h' k L h k = 1 2 \sum i , j = 1 n w i j ( h k j - h k j ) 2 =

1 2 \sum k = 1 n W ( A k , A ¯ k ) | A k | = \sum k = 1

這里用到的一個trick是放寬

arg min H' H = I t r (H' L H)

令

t r (H' L H) = t r ((Q H)' Λ (Q H)) = t r (Y' Λ Y) = t r (Y Y' Λ) =

由於

0 \leq (Y Y') i i \leq 1

\sum i = 1 n (Y Y') i i = t r (Y Y') = t r (Y' Y) = K

t r (H' L H) \geq \sum i = 1 K λ i

最后一步

現在我們得到了放寬限制條件下的優化問題的最優解解

我們知道，如果

譜聚類有意思的地方是選擇了對

對滿足原始限制條件的
在原始限制條件下得到的

如此可以推斷在放寬條件下得到的

總結

至此，譜聚類的大致步驟就完成了，歸納下主要步驟

計算樣本相似性得到樣本為節點的完全圖
基於
計算稀疏化后的圖的laplacian矩陣，計算其前
對矩陣
若

代碼例子

左圖是原始數據，右圖是譜聚類結果
這里寫圖片描述

import numpy as np
import networkx as nx
import scipy.linalg as llg
from Queue import PriorityQueue
import matplotlib.pylab as plt
import heapq as hp
from sklearn.cluster import k_means

# fake data from multivariate normal distribution
S = np.random.multivariate_normal([1,1], [[0.5,0],[0,0.7]],100)
T = np.random.multivariate_normal([-1,-1], [[0.3,0],[0,0.8]],100)
R = np.random.multivariate_normal([-1,0], [[0.4,0],[0,0.5]],100)
Data = np.vstack([S,T,R])
plt.subplot(1,2,1)
plt.scatter(S.T[0],S.T[1],c='r')
plt.scatter(T.T[0],T.T[1],c='b')
plt.scatter(R.T[0],R.T[1],c='y')

# calc k-nearest neighbors
def min_k(i,k):
    pq = []
    for j in range(len(Data)):
        if i == j:
            continue
        if len(pq) < k:
            hp.heappush( pq,(1/np.linalg.norm(Data[i]-Data[j]), j) )
        else:
            hp.heappushpop( pq, (1/np.linalg.norm(Data[i]-Data[j]), j) )
    return pq

# calc laplacian
L = np.zeros((len(Data),len(Data)))
for i in range(len(Data)):
    for (v,j) in min_k(i, 3):
        L[i,j] = -v
        L[j,i] = -v
L = L + np.diag(-np.sum(L,0)) 

# kmean
(lam, vec) = llg.eigh(L)
A = vec[:,0:3]
kmean = k_means(A,3)

plt.subplot(1,2,2)
plt.scatter(Data.T[0],Data.T[1],c=['r' if v==0 else 'b' if v==1 else 'y' for v in kmean[1]])
plt.show()

轉：http://blog.csdn.net/betarun/article/details/51154003

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 【譜聚類算法總結】【聚類算法】譜聚類(Spectral Clustering) 譜聚類算法(Spectral Clustering) 關於譜聚類的ng算法的實現 [轉]關於FFT的相位譜信號的功率譜、能量譜、頻譜的區別（轉）【圖機器學習】cs224w Lecture 5 - 譜聚類【轉】使用scipy進行層次聚類和k-means聚類單邊譜 → 雙邊譜 [轉]python進行中文文本聚類（切詞以及Kmeans聚類）