定義
聚類分析(Cluster Analysis)又稱群分析,是根據“物以類聚”的道理,對樣品或指標進行分類的一種多元統計分析方法,它們討論的對象是大量的樣品,要求能合理地按各自的特性來進行合理的分類,沒有任何模式可供參考或依循,即是在沒有先驗知識的情況下進行的。聚類分析起源於分類學,在古老的分類學中,人們主要依靠經驗和專業知識來實現分類,很少利用數學工具進行定量的分類。
例題
為了研究世界各國森林、草原資源的分布規律,共抽取了21個國家的數據,每個國家3項指標,見下表1。請進行聚類分析。
表1數據表
| 國別 |
森林覆蓋率(%) |
林木蓄積量(億立方米) |
草原面積(萬公頃) |
| 中國 |
12.5 |
93.5 |
31908 |
| 美國 |
30.4 |
202.0 |
23754 |
| 日本 |
67.2 |
24.8 |
58 |
| 德國 |
28.4 |
14.0 |
599 |
| 英國 |
8.6 |
1.5 |
1147 |
| 法國 |
26.7 |
16.0 |
1288 |
| 意大利 |
21.1 |
3.6 |
514 |
| 加拿大 |
32.7 |
192.8 |
2385 |
| 澳大利亞 |
13.9 |
10.5 |
45190 |
| 前蘇聯 |
41.1 |
841.5 |
37370 |
| 捷克 |
35.8 |
8.9 |
168 |
| 波蘭 |
27.8 |
11.4 |
405 |
| 匈牙利 |
17.4 |
2.5 |
129 |
| 南斯拉夫 |
36.3 |
11.4 |
640 |
| 羅馬尼亞 |
26.7 |
11.3 |
447 |
| 保加利亞 |
34.7 |
2.5 |
200 |
| 印度 |
20.5 |
29.0 |
1200 |
| 印尼 |
84.0 |
33.7 |
1200 |
| 尼日利亞 |
16.1 |
0.8 |
2090 |
| 墨西哥 |
24.6 |
32.6 |
7450 |
| 巴西 |
67.6 |
238.0 |
15900 |
k均值聚類
[X,data] = xlsread('data5.xlsx');
Xval = zscore(X);%數據標准化
val1 = pdist(Xval);% 距離
val2 = linkage(val1);% 變量之間的鏈接
val3 = cophenet(val2,val1);% 評價聚類
T=cluster(val2,4);% 創建聚類,4類
H=dendrogram(val2);% 制作譜系圖
可以看到T值,整個已經被分成了4類


因此,分類為:
{10},{21},{3,18},{其他}
即:{前蘇聯},{巴西},{日本,印尼},{其他國家}
系統聚類
使用SPSS導入數據

使用系統聚類,首先對數據進行標准化處理(Z得分)之后,使用系統分類(勾選譜系圖)可以得到


將系數提取出來,降序繪制成折線圖

從圖中我們可以看出,k=4開始,折線下降趨勢變緩。因此,根據譜系圖我們可以得到分類:
- 中國 澳大利亞 美國
- 日本 印尼 巴西
- 前蘇聯
- 德國,波蘭等其他國家
