聚類分析是一個迭代的過程
對於n個p維數據,我們最開始將他們分為n組
每次迭代將距離最近的兩組合並成一組
若給出需要聚成k類,則迭代到k類是,停止
計算初始情況的距離矩陣一般用馬氏距離或歐式距離
個人認為考試只考 1,2
比較有用的方法是3,4,5,8
最喜歡第8種
距離的計算
歐式距離
距離的二范數
馬氏距離
對於X1, X2 均屬於N(u, Σ)
X1,X2的距離為 (X1 - X2) / sqrt(Σ)
那么不同的聚類方法其實也就是不同的計算類間距離的方法
1.最短距離法
計算兩組間距離時,將兩組間距離最短的元素作為兩組間的距離
2.最長距離法
將兩組間最長的距離作為兩組間的距離
3.中間距離法
將Gp,Gq合並成為Gr
計算Gr與Gk的距離時使用如下公式
D2kr = 1/2 * D2kp + 1/2 * D2kq + β * D2pq
β是提前給定的超參數-0.25<=β<=0
4.重心法
每一組都可以看成一組多為空間中點的集合,計算組間距離時,可使用這兩組點的重心之間的距離作為類間距離
若使用的是歐氏距離
那么有如下計算公式
D2kr = np/nr * D2kp + nq/nr * D2kq - (np*nq / nr*nr ) * D2pq
5.類平均法
兩組之間的距離 = 組間每兩個樣本距離平方的平均值開根號
表達式為D2kr = np/nr * D2kp + nq/nr * D2kq
6.可變類平均法
可以反映合並的兩類的距離的影響
表達式為D2kr = np/nr * (1- β) * D2kp + nq/nr *(1- β) * D2kq + β*D2pq
0<=β<1
7.可變法
D2kr = (1- β)/2 * (D2kp + D2kq) + β*D2pq
8.離差平方和法
這個方法比較實用
就是計算兩類距離的話,就計算,如果將他們兩類合在一起之后的離差平方和
因為若兩類本身就是一類,和本身不是一類,他們的離差平方和相差較大
離差平方和:類中每個元素與這一類中的均值距離的平方之和
若統一成之前的公式就是
D2kr = (nk + np)/(nr + nk) * D2kp + (nk + nq)/(nr + nk) -(nk)/(nr + nk) * * D2pq
一些性質
除了中間距離法之外,其他的所有聚類方法都具有單調性
單調性就是指 每次聚類搞掉的距離遞增
空間的濃縮和擴張
D(A)>=D(B) 表示A矩陣中的每個元素都不小於B
D(短) <= D(平) <= D(長)
D(短,平) <= 0
D(長,平) >= 0
中間距離法無法判斷