多元統計分析-聚類分析


聚類分析是一個迭代的過程

對於n個p維數據,我們最開始將他們分為n組

每次迭代將距離最近的兩組合並成一組

若給出需要聚成k類,則迭代到k類是,停止

 

計算初始情況的距離矩陣一般用馬氏距離或歐式距離

個人認為考試只考 1,2

比較有用的方法是3,4,5,8 

最喜歡第8種

 

距離的計算

  歐式距離

    距離的二范數

  馬氏距離

    對於X1, X2  均屬於N(u, Σ) 

    X1,X2的距離為   (X1 - X2) / sqrt(Σ)

 

那么不同的聚類方法其實也就是不同的計算類間距離的方法

1.最短距離法

  計算兩組間距離時,將兩組間距離最短的元素作為兩組間的距離

 

2.最長距離法

  將兩組間最長的距離作為兩組間的距離

  

3.中間距離法

  將Gp,Gq合並成為Gr

  計算Gr與Gk的距離時使用如下公式

  D2kr = 1/2 * D2kp + 1/2 * D2kq + β * D2pq

   β是提前給定的超參數-0.25<=β<=0

 

4.重心法

  每一組都可以看成一組多為空間中點的集合,計算組間距離時,可使用這兩組點的重心之間的距離作為類間距離

  若使用的是歐氏距離

  那么有如下計算公式

  D2kr = np/nr * D2kp + nq/nr * D2kq - (np*nq / nr*nr ) * D2pq

5.類平均法

  兩組之間的距離 = 組間每兩個樣本距離平方的平均值開根號

  表達式為D2kr = np/nr * D2kp + nq/nr * D2kq

 

6.可變類平均法

  可以反映合並的兩類的距離的影響

  表達式為D2kr = np/nr * (1- β) * D2kp + nq/nr *(1- β) * D2kq + β*D2pq

  0<=β<1

7.可變法

  D2kr =  (1- β)/2  * (D2kp + D2kq) + β*D2pq

8.離差平方和法

  這個方法比較實用

  就是計算兩類距離的話,就計算,如果將他們兩類合在一起之后的離差平方和

  因為若兩類本身就是一類,和本身不是一類,他們的離差平方和相差較大

  離差平方和:類中每個元素與這一類中的均值距離的平方之和

 

  若統一成之前的公式就是

  D2kr = (nk + np)/(nr + nk)  * D2kp + (nk + nq)/(nr + nk)   -(nk)/(nr + nk) *  * D2pq

 

 

一些性質

  除了中間距離法之外,其他的所有聚類方法都具有單調性

  單調性就是指 每次聚類搞掉的距離遞增

 

  空間的濃縮和擴張

  D(A)>=D(B) 表示A矩陣中的每個元素都不小於B

   D(短) <= D(平) <= D(長)

  D(短,平) <= 0  

  D(長,平) >= 0

  中間距離法無法判斷  

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM