聚類分析(二):系統聚類法


一、類和類的特征

   設G為一個類,類中有m個元素,分別記為\(x^{(1)},x^{(2)},\cdots,x^{(m)}\), 常用到的特征有三個:

1.均值(重心)

\[\bar{x}_G=\frac{1}{m}\sum_{i=1}^{m}x^{(i)} \tag{1} \]

2.樣本離差陣和協方差陣

\[L_G=\sum_{i=1}^{m}(x^{(i)}-\bar{x}_G)(x^{(i)}-\bar{x}_G)^T\tag{2} \]

\[\Sigma_G=\frac{L_G}{m-1}\tag{3} \]

3.直徑,有多種定義

\[D_G=\sum_{i=1}^{m}(x^{(i)}-\bar{x}_G)^T(x^{(i)}-\bar{x}_G)=tr(L_G) \tag{4} \]

\[D_G=\max_{i,j \in G}d_{ij} \tag{5} \]

二、類間距離

假設兩個類\(G_p\)\(G_q\),分別有\(k\)\(m\)個樣本, 重心分別為\(x_p\)\(x_q\), 兩個類的距離定義為\(G(p,q)\)

1.最短距離法

兩個類的距離取決於最鄰近的兩個樣本的距離。

\[D_G(p,q)=\min{\{d_{jl}|j \in G_p,l \in G_q \}}\tag{6} \]

2. 最長距離法

兩個類的距離取決於最遠的兩個樣本的距離。

\[D_G(p,q)=\max{\{d_{jl}|j \in G_p,l \in G_q \}}\tag{7} \]

3.重心法

\[D_c(p,q)=d_{\bar{x}_p\bar{q}_q} \]

二、系統聚類法

1.流程

flowchat st=>start: 開始 e=>end: 結束 op1=>operation: 計算n個樣品的兩兩間的距離 op2=>operation: 構造n個類,每個樣品為獨立的一個類 op3=>operation: 合並最近的兩個類為一個新類 op4=>operation: 計算新類到各個類的距離 cond=>condition: 累的個數是否為1 st->op1->op2->op3->op4->cond cond(yes)->e cond(no)->op3

2.示例

以下數據為5個省份居民消費在8個指標的的支出占比。
在這里插入圖片描述
用歐式距離來衡量各個樣本間的距離,用重心法衡量各個類間的距離。
計算出各個省之間的距離如下:

在這里插入圖片描述
發現最小距離為195.14,於是將對應的省份合成一類,在計算相對應的距離。
最后得到聚類的譜系圖:
在這里插入圖片描述


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM