一、類和類的特征
設G為一個類,類中有m個元素,分別記為\(x^{(1)},x^{(2)},\cdots,x^{(m)}\), 常用到的特征有三個:
1.均值(重心)
\[\bar{x}_G=\frac{1}{m}\sum_{i=1}^{m}x^{(i)} \tag{1} \]
2.樣本離差陣和協方差陣
\[L_G=\sum_{i=1}^{m}(x^{(i)}-\bar{x}_G)(x^{(i)}-\bar{x}_G)^T\tag{2} \]
\[\Sigma_G=\frac{L_G}{m-1}\tag{3} \]
3.直徑,有多種定義
\[D_G=\sum_{i=1}^{m}(x^{(i)}-\bar{x}_G)^T(x^{(i)}-\bar{x}_G)=tr(L_G) \tag{4} \]
\[D_G=\max_{i,j \in G}d_{ij} \tag{5} \]
二、類間距離
假設兩個類\(G_p\)和\(G_q\),分別有\(k\)和\(m\)個樣本, 重心分別為\(x_p\)和\(x_q\), 兩個類的距離定義為\(G(p,q)\)。
1.最短距離法
兩個類的距離取決於最鄰近的兩個樣本的距離。
\[D_G(p,q)=\min{\{d_{jl}|j \in G_p,l \in G_q \}}\tag{6} \]
2. 最長距離法
兩個類的距離取決於最遠的兩個樣本的距離。
\[D_G(p,q)=\max{\{d_{jl}|j \in G_p,l \in G_q \}}\tag{7} \]
3.重心法
\[D_c(p,q)=d_{\bar{x}_p\bar{q}_q} \]
二、系統聚類法
1.流程
flowchat st=>start: 開始 e=>end: 結束 op1=>operation: 計算n個樣品的兩兩間的距離 op2=>operation: 構造n個類,每個樣品為獨立的一個類 op3=>operation: 合並最近的兩個類為一個新類 op4=>operation: 計算新類到各個類的距離 cond=>condition: 累的個數是否為1 st->op1->op2->op3->op4->cond cond(yes)->e cond(no)->op3
2.示例
以下數據為5個省份居民消費在8個指標的的支出占比。
用歐式距離來衡量各個樣本間的距離,用重心法衡量各個類間的距離。
計算出各個省之間的距離如下:
發現最小距離為195.14,於是將對應的省份合成一類,在計算相對應的距離。
最后得到聚類的譜系圖: