實驗目的
學會使用SPSS的簡單操作,掌握神經網絡模型。
實驗要求
使用SPSS。
實驗內容
(1)創建多層感知器網絡,使用多層感知器評估信用風險,銀行信貸員需要能夠找到預示有可能拖欠貸款的人的特征來識別信用風險的高低。
(2)實現神經網絡預測模型,使用徑向基函數分類電信客戶。
實驗步驟
(1)創建多層感知器網絡,分析示例——使用多層感知器評估信用風險,銀行信貸員需要能夠找到預示有可能拖欠貸款的人的特征來識別信用風險的高低。詳細見bankloan.sav文件。SPSS操作,點擊【轉換】→【隨機數生成器】,在打開的對話框中,勾選【設置起點】,點擊【估計值】,值設為“9191972”,單擊【確定】。【轉換】→【計算變量】,在打開的對話框中,把“partion”輸入【目標變量】。在【數字表達式】中輸入表達式(2*RV.BERNOULLI(0.7)-1),單擊【確定】。點擊【分析】→【神經網絡】→【多層感知器】,在打開的對話框中,把如圖示的變量選入相應的地方。【分區】,點擊【使用分區變量來分配個案】,並把“partion”選入【分區變量】中。點擊【輸出】,勾選想要輸出的圖表,點擊【保存】,單擊【確定】。









運行結果,
| 個案處理摘要 |
|||
|
|
個案數 |
百分比 |
|
| 樣本 |
訓練 |
499 |
71.3% |
| 堅持 |
201 |
28.7% |
|
| 有效 |
700 |
100.0% |
|
| 排除 |
150 |
|
|
| 總計 |
850 |
||
| 網絡信息 |
|||
| 輸入層 |
因子 |
1 |
Level of education |
| 協變量 |
1 |
Age in years |
|
| 2 |
Years with current employer |
||
| 3 |
Years at current address |
||
| 4 |
Household income in thousands |
||
| 5 |
Debt to income ratio (x100) |
||
| 6 |
Credit card debt in thousands |
||
| 7 |
Other debt in thousands |
||
| 單元數a |
12 |
||
| 協變量的重新標度方法 |
標准化 |
||
| 隱藏層 |
隱藏層數 |
1 |
|
| 隱藏層 1 中的單元數a |
4 |
||
| 激活函數 |
雙曲正切 |
||
| 輸出層 |
因變量 |
1 |
Previously defaulted |
| 單元數 |
2 |
||
| 激活函數 |
Softmax |
||
| 誤差函數 |
交叉熵 |
||
| a. 排除偏差單元 |
|||

| 模型摘要 |
||
| 訓練 |
交叉熵誤差 |
156.605 |
| 不正確預測百分比 |
15.6% |
|
| 使用的中止規則 |
超出最大時程數 (100) |
|
| 訓練時間 |
0:00:00.25 |
|
| 堅持 |
不正確預測百分比 |
25.4% |
| 因變量:Previously defaulted |
||
| 分類 |
||||
| 樣本 |
實測 |
預測 |
||
| No |
Yes |
正確百分比 |
||
| 訓練 |
No |
347 |
28 |
92.5% |
| Yes |
50 |
74 |
59.7% |
|
| 總體百分比 |
79.6% |
20.4% |
84.4% |
|
| 堅持 |
No |
123 |
19 |
86.6% |
| Yes |
32 |
27 |
45.8% |
|
| 總體百分比 |
77.1% |
22.9% |
74.6% |
|
| 因變量:Previously defaulted |
||||


| 曲線下方的區域 |
||
|
|
區域 |
|
| Previously defaulted |
No |
.907 |
| Yes |
.907 |
|


代碼:
1 COMPUTE partion=2*RV.BERNOULLI(0.7)-1. 2 EXECUTE. 3 *Multilayer Perceptron Network. 4 MLP default (MLEVEL=N) BY ed WITH age employ address income debtinc creddebt othdebt 5 /RESCALE COVARIATE=STANDARDIZED 6 /PARTITION VARIABLE=partion 7 /ARCHITECTURE AUTOMATIC=YES (MINUNITS=1 MAXUNITS=50) 8 /CRITERIA TRAINING=BATCH OPTIMIZATION=SCALEDCONJUGATE LAMBDAINITIAL=0.0000005 9 SIGMAINITIAL=0.00005 INTERVALCENTER=0 INTERVALOFFSET=0.5 MEMSIZE=1000 10 /PRINT CPS NETWORKINFO SUMMARY CLASSIFICATION 11 /PLOT NETWORK ROC GAIN LIFT PREDICTED 12 /SAVE PREDVAL PSEUDOPROB 13 /STOPPINGRULES ERRORSTEPS= 1 (DATA=AUTO) TRAININGTIMER=ON (MAXTIME=15) MAXEPOCHS=AUTO 14 ERRORCHANGE=1.0E-4 ERRORRATIO=0.001 15 /MISSING USERMISSING=EXCLUDE .
(1)實現神經網絡預測模型,分析示例——使用徑向基函數分類電信客戶,具體見telco.sav。SPSS操作,【轉換】→【隨機生成數】→【設置起點】為“9191972”,單擊【確定】。點擊【分析】→【神經網絡】→【徑向基函數】,設置相關步驟見圖。




輸出結果:
| 個案處理摘要 |
|||
|
|
個案數 |
百分比 |
|
| 樣本 |
訓練 |
665 |
66.5% |
| 檢驗 |
224 |
22.4% |
|
| 堅持 |
111 |
11.1% |
|
| 有效 |
1000 |
100.0% |
|
| 排除 |
0 |
|
|
| 總計 |
1000 |
||
| 網絡信息 |
|||
| 輸入層 |
因子 |
1 |
Multiple lines |
| 2 |
Level of education |
||
| 3 |
Retired |
||
| 4 |
Gender |
||
| 協變量 |
1 |
Age in years |
|
| 2 |
Years at current address |
||
| 3 |
Household income in thousands |
||
| 4 |
Years with current employer |
||
| 5 |
Number of people in household |
||
| 單元數 |
16 |
||
| 協變量的重新標度方法 |
標准化 |
||
| 隱藏層 |
單元數 |
9a |
|
| 激活函數 |
Softmax |
||
| 輸出層 |
因變量 |
1 |
Customer category |
| 單元數 |
4 |
||
| 激活函數 |
恆等式 |
||
| 誤差函數 |
平方和 |
||
| a. 由檢驗數據准則確定:隱藏單元的“最佳”數目是指在檢驗數據中產生誤差最小的數目。 |
|||

| 模型摘要 |
||
| 訓練 |
平方和誤差 |
199.956 |
| 不正確預測百分比 |
49.0% |
|
| 訓練時間 |
0:00:01.05 |
|
| 檢驗 |
平方和誤差 |
66.887a |
| 不正確預測百分比 |
47.8% |
|
| 堅持 |
不正確預測百分比 |
54.1% |
| 因變量:Customer category |
||
| a. 隱藏單元數由檢驗數據准則確定:隱藏單元的“最佳”數目是指在檢驗數據中產生誤差最小的數目。 |
||
| 分類 |
||||||
| 樣本 |
實測 |
預測 |
||||
| Basic service |
E-service |
Plus service |
Total service |
正確百分比 |
||
| 訓練 |
Basic service |
149 |
1 |
25 |
0 |
85.1% |
| E-service |
0 |
105 |
17 |
19 |
74.5% |
|
| Plus service |
85 |
35 |
63 |
2 |
34.1% |
|
| Total service |
42 |
70 |
30 |
22 |
13.4% |
|
| 總體百分比 |
41.5% |
31.7% |
20.3% |
6.5% |
51.0% |
|
| 檢驗 |
Basic service |
51 |
0 |
8 |
0 |
86.4% |
| E-service |
0 |
33 |
5 |
15 |
62.3% |
|
| Plus service |
30 |
12 |
20 |
3 |
30.8% |
|
| Total service |
9 |
14 |
11 |
13 |
27.7% |
|
| 總體百分比 |
40.2% |
26.3% |
19.6% |
13.8% |
52.2% |
|
| 堅持 |
Basic service |
27 |
0 |
5 |
0 |
84.4% |
| E-service |
0 |
15 |
4 |
4 |
65.2% |
|
| Plus service |
14 |
7 |
8 |
2 |
25.8% |
|
| Total service |
10 |
11 |
3 |
1 |
4.0% |
|
| 總體百分比 |
45.9% |
29.7% |
18.0% |
6.3% |
45.9% |
|
| 因變量:Customer category |
||||||

| 曲線下方的區域 |
||
|
|
區域 |
|
| Customer category |
Basic service |
.848 |
| E-service |
.869 |
|
| Plus service |
.681 |
|
| Total service |
.717 |
|


代碼:
1 SET SEED=9191972. 2 *Radial Basis Function Network. 3 RBF custcat (MLEVEL=N) BY multline ed retire gender WITH age address income employ reside 4 /RESCALE COVARIATE=STANDARDIZED 5 /PARTITION TRAINING=6 TESTING=2 HOLDOUT=1 6 /ARCHITECTURE MINUNITS=AUTO MAXUNITS=AUTO HIDDENFUNCTION=NRBF 7 /CRITERIA OVERLAP=AUTO 8 /PRINT CPS NETWORKINFO SUMMARY CLASSIFICATION 9 /PLOT NETWORK ROC GAIN LIFT PREDICTED 10 /SAVE PREDVAL PSEUDOPROB 11 /MISSING USERMISSING=EXCLUDE .
小結
使用神經網絡模型進行預測或分類,有必要對參數的調試下點功夫。
