SPSS聚類分析


定義

聚類分析(Cluster Analysis)又稱群分析,是根據“物以類聚”的道理,對樣品或指標進行分類的一種多元統計分析方法,它們討論的對象是大量的樣品,要求能合理地按各自的特性來進行合理的分類,沒有任何模式可供參考或依循,即是在沒有先驗知識的情況下進行的。聚類分析起源於分類學,在古老的分類學中,人們主要依靠經驗和專業知識來實現分類,很少利用數學工具進行定量的分類。

 

例題

為了研究世界各國森林、草原資源的分布規律,共抽取了21個國家的數據,每個國家3項指標,見下表1。請進行聚類分析。

表1數據表

國別

森林覆蓋率(%)

林木蓄積量(億立方米)

草原面積(萬公頃)

中國

12.5

93.5

31908

美國

30.4

202.0

23754

日本

67.2

24.8

58

德國

28.4

14.0

599

英國

8.6

1.5

1147

法國

26.7

16.0

1288

意大利

21.1

3.6

514

加拿大

32.7

192.8

2385

澳大利亞

13.9

10.5

45190

前蘇聯

41.1

841.5

37370

捷克

35.8

8.9

168

波蘭

27.8

11.4

405

匈牙利

17.4

2.5

129

南斯拉夫

36.3

11.4

640

羅馬尼亞

26.7

11.3

447

保加利亞

34.7

2.5

200

印度

20.5

29.0

1200

印尼

84.0

33.7

1200

尼日利亞

16.1

0.8

2090

墨西哥

24.6

32.6

7450

巴西

67.6

238.0

15900

 

 

k均值聚類

[X,data] = xlsread('data5.xlsx');
Xval = zscore(X);%數據標准化
val1 = pdist(Xval);% 距離
val2 = linkage(val1);% 變量之間的鏈接
val3 = cophenet(val2,val1);% 評價聚類
T=cluster(val2,4);% 創建聚類,4類
H=dendrogram(val2);% 制作譜系圖

可以看到T值,整個已經被分成了4類

因此,分類為:

{10},{21},{3,18},{其他}

即:{前蘇聯},{巴西},{日本,印尼},{其他國家}

 

系統聚類

使用SPSS導入數據

使用系統聚類,首先對數據進行標准化處理(Z得分)之后,使用系統分類(勾選譜系圖)可以得到

將系數提取出來,降序繪制成折線圖

從圖中我們可以看出,k=4開始,折線下降趨勢變緩。因此,根據譜系圖我們可以得到分類:

  1. 中國 澳大利亞 美國
  2. 日本 印尼 巴西
  3. 前蘇聯
  4. 德國,波蘭等其他國家


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM