定義
聚類分析(Cluster Analysis)又稱群分析,是根據“物以類聚”的道理,對樣品或指標進行分類的一種多元統計分析方法,它們討論的對象是大量的樣品,要求能合理地按各自的特性來進行合理的分類,沒有任何模式可供參考或依循,即是在沒有先驗知識的情況下進行的。聚類分析起源於分類學,在古老的分類學中,人們主要依靠經驗和專業知識來實現分類,很少利用數學工具進行定量的分類。
例題
為了研究世界各國森林、草原資源的分布規律,共抽取了21個國家的數據,每個國家3項指標,見下表1。請進行聚類分析。
表1數據表
國別 |
森林覆蓋率(%) |
林木蓄積量(億立方米) |
草原面積(萬公頃) |
中國 |
12.5 |
93.5 |
31908 |
美國 |
30.4 |
202.0 |
23754 |
日本 |
67.2 |
24.8 |
58 |
德國 |
28.4 |
14.0 |
599 |
英國 |
8.6 |
1.5 |
1147 |
法國 |
26.7 |
16.0 |
1288 |
意大利 |
21.1 |
3.6 |
514 |
加拿大 |
32.7 |
192.8 |
2385 |
澳大利亞 |
13.9 |
10.5 |
45190 |
前蘇聯 |
41.1 |
841.5 |
37370 |
捷克 |
35.8 |
8.9 |
168 |
波蘭 |
27.8 |
11.4 |
405 |
匈牙利 |
17.4 |
2.5 |
129 |
南斯拉夫 |
36.3 |
11.4 |
640 |
羅馬尼亞 |
26.7 |
11.3 |
447 |
保加利亞 |
34.7 |
2.5 |
200 |
印度 |
20.5 |
29.0 |
1200 |
印尼 |
84.0 |
33.7 |
1200 |
尼日利亞 |
16.1 |
0.8 |
2090 |
墨西哥 |
24.6 |
32.6 |
7450 |
巴西 |
67.6 |
238.0 |
15900 |
k均值聚類
[X,data] = xlsread('data5.xlsx'); Xval = zscore(X);%數據標准化 val1 = pdist(Xval);% 距離 val2 = linkage(val1);% 變量之間的鏈接 val3 = cophenet(val2,val1);% 評價聚類 T=cluster(val2,4);% 創建聚類,4類 H=dendrogram(val2);% 制作譜系圖
可以看到T值,整個已經被分成了4類
因此,分類為:
{10},{21},{3,18},{其他}
即:{前蘇聯},{巴西},{日本,印尼},{其他國家}
系統聚類
使用SPSS導入數據
使用系統聚類,首先對數據進行標准化處理(Z得分)之后,使用系統分類(勾選譜系圖)可以得到
將系數提取出來,降序繪制成折線圖
從圖中我們可以看出,k=4開始,折線下降趨勢變緩。因此,根據譜系圖我們可以得到分類:
- 中國 澳大利亞 美國
- 日本 印尼 巴西
- 前蘇聯
- 德國,波蘭等其他國家