聚類算法(五)--層次聚類(系統聚類)及超易懂實例分析


博客上看到的,叫做層次聚類,但是《醫學統計學》上叫系統聚類(chapter21)

思想很簡單,想象成一顆倒立的樹,葉節點為樣本本身,根據樣本之間的距離相似系數),將最近的兩樣本合並到一個根節點,計算新的根節點與其他樣本的距離類間相似系數),距離最小的合為新的根節點。以此類推

對於樣本X=(x1,x2,,,xm),共n個樣品,m個特征,我們可以考慮兩種情形聚類

R型聚類:m個特征之間的聚類,可以理解為一種降維。

Q型聚類:n個樣品之間的聚類,這就是一般意義上機器學習中的系統聚類

 

(文中的下標i、j在R型、Q型中的含義不一樣,聰明的讀者自行分辨)

相似系數:

 

R型(真正意義上的相似系數)(r)

$r_{ij}=\frac{\left | \sum \left ( X_{i}-\bar{X_{i}} \right )\left ( X_{j}-\bar{X_{j}} \right ) \right |}{\sqrt{\sum \left ( X_{i}-\bar{X_{i}} \right )^{2}\sum \left ( X_{j}-\bar{X_{j}} \right )^{2}}}$

可以看到$r_{ij}$越大標明兩特征相似程度越高

 

Q型(真正意義上的樣品距離)(d)

 

閔可夫斯基(Minkowski)距離:

$\sqrt[p]{\left | x-\mu _{i} \right |^{p}}$

 

Minkowski距離沒有考慮變量之間的相關關系。引進馬氏距離:

$d_{ij}={\mathbf{X}}'\mathbf{S}^{-1}\mathbf{X}$

其中

$X=(X_{i1}-X_{j1} \right , X_{i2}-X_{j2} \right, X_{im}-X_{jm})$(不明原因的公式不正確顯示)

 

 

類間相似系數:

 

最大相似系數法

 

r=Max(r)

D=Min(d)

 

最小相似系數法

 r=Min(r)

 D=Max(d)

 

可以看出,就是人為規定了,當某兩個指標或樣品合並后,新的樣本(或指標)與上一節點樣品(或指標)的距離(或相似系數)的選取

 

現舉實例說明

測量了300名成年女子身高(X1)、下肢長(X2)、腰圍(X3)、胸圍(X4)

得到相似系數矩陣

可以看到X1,X2的相似系數最大,所以將X1,X2合並為G5

X3變為G3,X4變為G4

G3與G4的相似系數不變,為0.73

G5與G3、G5與G4的類間相似系數采用最大相似系數法

 

G5與G3的類間相似系數r = Max r

即$r_{53}=Max(r_{13},r_{23})=Max(0.09,0.05)=0.09$

$r_{54}=Max(r_{14},r_{24})=Max(0.23,0.17)=0.23$

所以有

根據上述步驟,直到所有的類都歸為一類。

 

在R2中可知,G3、G4的相似系數最大,將他們歸為G6,由此我們得到身高與下肢長為一類G5,腰圍與胸圍一類G6

聚類圖:

橫坐標為指標

縱坐標為相關系數(越往下,r越大)

 

 

 參考:http://bluewhale.cc/2016-04-19/hierarchical-clustering.html

   《 醫學統計學》 孫振球,徐勇勇

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM