博客上看到的,叫做層次聚類,但是《醫學統計學》上叫系統聚類(chapter21)
思想很簡單,想象成一顆倒立的樹,葉節點為樣本本身,根據樣本之間的距離(相似系數),將最近的兩樣本合並到一個根節點,計算新的根節點與其他樣本的距離(類間相似系數),距離最小的合為新的根節點。以此類推
對於樣本X=(x1,x2,,,xm),共n個樣品,m個特征,我們可以考慮兩種情形聚類
R型聚類:m個特征之間的聚類,可以理解為一種降維。
Q型聚類:n個樣品之間的聚類,這就是一般意義上機器學習中的系統聚類
(文中的下標i、j在R型、Q型中的含義不一樣,聰明的讀者自行分辨)
相似系數:
R型(真正意義上的相似系數)(r)
$r_{ij}=\frac{\left | \sum \left ( X_{i}-\bar{X_{i}} \right )\left ( X_{j}-\bar{X_{j}} \right ) \right |}{\sqrt{\sum \left ( X_{i}-\bar{X_{i}} \right )^{2}\sum \left ( X_{j}-\bar{X_{j}} \right )^{2}}}$
可以看到$r_{ij}$越大標明兩特征相似程度越高
Q型(真正意義上的樣品距離)(d)
閔可夫斯基(Minkowski)距離:
$\sqrt[p]{\left | x-\mu _{i} \right |^{p}}$
Minkowski距離沒有考慮變量之間的相關關系。引進馬氏距離:
$d_{ij}={\mathbf{X}}'\mathbf{S}^{-1}\mathbf{X}$
其中
$X=(X_{i1}-X_{j1} \right , X_{i2}-X_{j2} \right, X_{im}-X_{jm})$(不明原因的公式不正確顯示)
類間相似系數:
最大相似系數法
r=Max(r)
D=Min(d)
最小相似系數法
r=Min(r)
D=Max(d)
可以看出,就是人為規定了,當某兩個指標或樣品合並后,新的樣本(或指標)與上一節點樣品(或指標)的距離(或相似系數)的選取
現舉實例說明
測量了300名成年女子身高(X1)、下肢長(X2)、腰圍(X3)、胸圍(X4)
得到相似系數矩陣
可以看到X1,X2的相似系數最大,所以將X1,X2合並為G5
X3變為G3,X4變為G4
G3與G4的相似系數不變,為0.73
G5與G3、G5與G4的類間相似系數采用最大相似系數法
G5與G3的類間相似系數r = Max r
即$r_{53}=Max(r_{13},r_{23})=Max(0.09,0.05)=0.09$
$r_{54}=Max(r_{14},r_{24})=Max(0.23,0.17)=0.23$
所以有
根據上述步驟,直到所有的類都歸為一類。
在R2中可知,G3、G4的相似系數最大,將他們歸為G6,由此我們得到身高與下肢長為一類G5,腰圍與胸圍一類G6
聚類圖:
橫坐標為指標
縱坐標為相關系數(越往下,r越大)
參考:http://bluewhale.cc/2016-04-19/hierarchical-clustering.html
《 醫學統計學》 孫振球,徐勇勇