【R統計】主成分分析1


習題:

9.1用主成分方法探討城市工業主體結構。下表是某事工業部門十三個行業,分別是冶金(1)、電力(2)、煤炭(3)、化學(4)、機械(5)、建材(6)、森工(7)、食品(8)、紡織(9)、縫紉(10),皮革(11)、造紙(12)和文教藝術用品(13),八個指標分別是年末固定資產凈值X1(萬元)、職工人數X2(人)、工業總產值X3(萬元)、全員勞動生產率X4(元/人年)、百元固定元值實現產值X5(元)、資金利率X6(%)、標准燃料消費量X7(噸)和能源利用效果X8(萬元/噸)的數據。

(1)試用主成分分析方法確定8個指標的幾個主成分,並對主成分進行解釋;

(2)利用主成分得分對13個行業進行排序和分類。

原始數據(data.txt):

	X1	X2	X3	X4	X5	X6	X7	X8
1	90342	52455	101091	19272	82.0	16.1	197435	0.172
2	4903	1973	2035	10313	34.2	7.1	592077	0.003
3	6735	21139	3767	1780	36.1	8.2	726396	0.003
4	49454	36241	81557	22504	98.1	25.9	348226	0.985
5	139190	203505	215898	10609	93.2	12.6	139572	0.628
6	12215	16219	10351	6382	62.5	8.7	145818	0.066
7	2372	6572	8103	12329	184.4	22.2	20921	0.152
8	11062	23078	54935	23804	370.4	41.0	65486	0.263
9	17111	23907	52108	21796	221.5	21.5	63806	0.276
10	1206	3930	6126	15586	330.4	29.5	1840	0.437
11	2150	5704	6200	10870	184.2	12.0	8913	0.274
12	5251	6155	10383	16875	146.4	27.5	78796	0.151
13	14341	13203	19396	14691	94.6	17.8	6354	1.574

  

腳本

#p269 9.1
#p220

#讀取數據
hangye<-read.table("data.txt");

#### 作主成分分析,並顯示結果
hangye.pr<-princomp(hangye, cor=TRUE)
summary(hangye.pr, loadings=TRUE)
###輸出
# Importance of components:
                          # Comp.1    Comp.2    Comp.3     Comp.4     Comp.5
# Standard deviation     1.7620762 1.7021873 0.9644768 0.80132532 0.55143824
# Proportion of Variance 0.3881141 0.3621802 0.1162769 0.08026528 0.03801052
# Cumulative Proportion  0.3881141 0.7502943 0.8665712 0.94683649 0.98484701
                           # Comp.6      Comp.7       Comp.8
# Standard deviation     0.29427497 0.179400062 0.0494143207
# Proportion of Variance 0.01082472 0.004023048 0.0003052219
# Cumulative Proportion  0.99567173 0.999694778 1.0000000000

# Loadings:
   # Comp.1 Comp.2 Comp.3 Comp.4 Comp.5 Comp.6 Comp.7 Comp.8
# X1  0.477 -0.296 -0.104         0.184         0.758  0.245
# X2  0.473 -0.278 -0.163 -0.174 -0.305        -0.518  0.527
# X3  0.424 -0.378 -0.156                      -0.174 -0.781
# X4 -0.213 -0.451         0.516  0.539  0.288 -0.249  0.220
# X5 -0.388 -0.331 -0.321 -0.199 -0.450  0.582  0.233       
# X6 -0.352 -0.403 -0.145  0.279 -0.317 -0.714              
# X7  0.215  0.377 -0.140  0.758 -0.418  0.194              
# X8        -0.273  0.891        -0.322  0.122              
###解釋
#前兩個主成分解釋了75%的差異
#Comp.1 反映的是“高固定資產、高職工人數、高工業產值、低全員生產率、低資金利率、低標准燃料消費”,看做規模因子
#Comp.2 反映的是“高標准燃料消費、低全員勞動生產率、低資金利稅率”,看做燃料因子
#Comp.3 反映的是“高能源利用效果”,看做能源利用率因子


#### 作預測
predict(hangye.pr)

#### 作圖,分類和排序
biplot(hangye.pr)

  

圖片

解答:

(1)見腳本注釋。

(2)見上圖。可按前兩軸排序。3 2 6可分為一組,屬於能源消耗類重工業;11 7 12分為一組,為資源消耗類輕工業;1 4為化學工業;9 10 13為勞動力密集型制造業; 8 為食品業。

 

博文源代碼和習題均來自於教材《統計建模與R軟件》(ISBN:9787302143666,作者:薛毅)。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM