分類算法:判別分析 spss操作流程介紹


 

 判別分析 的SPSS操作流程
 
 
1.Discriminant Analysis判別分析主對話框    如圖 1-1 所示
 

 

圖 1-1    Discriminant Analysis 主對話框
 
(1)選擇分類變量及其范圍
 
在主對話框中左面的矩形框中選擇表明已知的觀測量所屬類別的變量(一定是離散變量), 
按上面的一個向右的箭頭按鈕,使該變量名移到右面的Grouping Variable 框中。
此時矩形框下面的Define Range 按鈕加亮,按該按鈕屏幕顯示一個小對話框如圖1-2 所示,供指定該分類變量的數值范圍。

 

圖 1-2   Define Range 對話框

在Minimum 框中輸入該分類變量的最小值在Maximum 框中輸入該分類變量的最大值。按Continue 按鈕返回主對話框。
 
 
(2)指定判別分析的自變量

 

圖 1-3    展開 Selection Variable 對話框的主對話框
 
在主對話框的左面的變量表中選擇表明觀測量特征的變量,按下面一個箭頭按鈕。
把選中的變量移到Independents 矩形框中,作為參與判別分析的變量。
 
(3) 選擇觀測量
 

圖 1-4    Set Value 子對話框
 
如果希望使用一部分觀測量進行判別函數的推導而且有一個變量的某個值可以作為這些觀測量的標識,
則用Select 功能進行選擇,操作方法是單擊Select 按鈕展開Selection Variable。選擇框如圖1-3 所示。
並從變量列表框中選擇變量移入該框中再單擊Selection Variable 選擇框右側的Value按鈕,
展開Set Value(子對話框)對話框,如圖1-4 所示,鍵入標識參與分析的觀測量所具有的該變量值,
一般均使用數據文件中的所有合法觀測量此步驟可以省略。
 
(4) 選擇分析方法

 

在主對話框中自變量矩形框下面有兩個選擇項,被選中的方法前面的圓圈中加有黑點。這兩個選擇項是用於選擇判別分析方法的
l      Enter independent together 選項,當認為所有自變量都能對觀測量特性提供豐富的信息時,使用該選擇項。選擇該項將不加選擇地使用所有自變量進行判別分析,建立全模型,不需要進一步進行選擇。
l      Use stepwise method 選項,當不認為所有自變量都能對觀測量特性提供豐富的信息時,使用該選擇項。因此需要判別貢獻的大小,再進行選擇當鼠標單擊該項時Method 按鈕加亮,可以進一步選擇判別分析方法。
 
 
 
2.Method對話框 如圖 1-5 所示: 
 

 

圖 1-5    Stepwise Method 對話框
 
單擊“Method”按鈕展開Stepwise Method對話框。
 
(1)Method 欄選擇進行逐步判別分析的方法
 
可供選擇的判別分析方法有:
l   Wilks'lambda 選項,每步都是Wilk 的概計量最小的進入判別函數
l   Unexplained variance 選項,每步都是使各類不可解釋的方差和最小的變量進入判別函數。
l   Mahalanobis’distance 選項,每步都使靠得最近的兩類間的Mahalanobis 距離最大的變量進入判別函數
l   Smallest F ratio 選項,每步都使任何兩類間的最小的F 值最大的變量進入判刑函數
l   Rao’s V 選項,每步都會使Rao V 統計量產生最大增量的變量進入判別函數。可以對一個要加入到模型中的變量的V 值指定一個最小增量。選擇此種方法后,應該在該項下面的V-to-enter 后的矩形框中輸入這個增量的指定值。當某變量導致的V值增量大於指定值的變量后進入判別函數。
 
(2) Criteria 欄選擇逐步判別停止的判據
 
可供選擇的判據有:
l    Use F value 選項,使用F值,是系統默認的判據當加人一個變量(或剔除一個變量)后,對在判別函數中的變量進行方差分析。當計算的F值大於指定的Entry 值時,該變量保留在函數中。默認值是Entry為3.84:當該變量使計算的F值小於指定的Removal 值時,該變量從函數中剔除。默認值是Removal為2.71。即當被加入的變量F 值為3.84 時才把該變量加入到模型中,否則變量不能進入模型;或者,當要從模型中移出的變量F值<2.71時,該變量才被移出模型,否則模型中的變量不會被移出.設置這兩個值時應該注意Entry值〉Removal 值。
l    Use Probability of F選項,用F檢驗的概率決定變量是否加入函數或被剔除而不是用F值。加入變量的F值概率的默認值是0.05(5%);移出變量的F 值概率是0.10(10%)。Removal值(移出變量的F值概率) >Entry值(加入變量的F值概率)。
 
(3) Display欄顯示選擇的內容
 
對於逐步選擇變量的過程和最后結果的顯示可以通過Display 欄中的兩項進行選擇:
l    Summary of steps 復選項,要求在逐步選擇變量過程中的每一步之后顯示每個變量的統計量。
l    F for Pairwise distances 復選項,要求顯示兩兩類之間的兩兩F 值矩陣。
 
 
 
3.Statistics對話框 指定輸出的統計量如圖1-6 所示:
 

 
圖 1-6    Statistics 對話框
 
可以選擇的輸出統計量分為以下3 類:
 
(l) 描述統計量
在 Descriptives 欄中選擇對原始數據的描述統計量的輸出:
l  Means 復選項,可以輸出各類中各自變量的均值MEAN、標准差std Dev 和各自變量總樣本的均值和標准差。
l  Univariate ANOV 復選項,對各類中同一自變量均值都相等的假設進行檢驗,輸出單變量的方差分析結果。
l  Box’s M 復選項,對各類的協方差矩陣相等的假設進行檢驗。如果樣本足夠大,表明差異不顯著的p 值表明矩陣差異不明顯。
 
(2) Function coefficients 欄:選擇判別函數系數的輸出形式
l  Fisherh’s 復選項,可以直接用於對新樣本進行判別分類的費雪系數。對每一類給出一組系數。並給出該組中判別分數最大的觀測量。
l  Unstandardized 復選項,未經標准化處理的判別系數。
 
(3) Matrices 欄:選擇自變量的系數矩陣
l  Within-groups correlation matrix復選項,即類內相關矩陣,
它是根據在計算相關矩陣之前將各組(類)協方差矩陣平均后計算類內相關矩陣。
l   Within-groups covariance matrix復選項,即計算並顯示合並類內協方差矩陣,
是將各組(類)協方差矩陣平均后計算的。區別於總協方差陣。
l   Separate-groups covariance matrices復選項,對每類輸出顯示一個協方差矩陣。
l   Total covariance matrix復選項,計算並顯示總樣本的協方差矩陣。
 
 
 
4.Classification 對話框指定分類參數和判別結果 如圖1-7 所示

 
圖 1-7    Classification 對話框
 
在主對話框中單擊Classify 按鈕展開相應的對話框
 
(1) 在 Prior Probabilities欄中選擇先驗概率,兩者選其一
l  All groups equal 選項,各類先驗概率相等。若分為m類,則各類先驗概率均為1/m。
l   Compute from groups sizes選項,由各類的樣本量計算決定,即各類的先驗概率與其樣本量成正比。
 
(2) Use Covariance Matrix 欄:選擇分類使用的協方差矩陣
l  Within-groups選項,指定使用合並組內協方差矩陣進行分類。
l  Separate-groups選項,指定使用各組協方差矩陣進行分類。
由於分類是根據判別函數,而不是根據原始變量,因此該選擇項不是總等價於二次判別。
 
(3) Plots 欄選擇要求輸出的統計圖
 
l  Combined-groups復選項, 生成一張包括各類的散點圖
該散點圖是根據前兩個判別函數值作的散點圖。如果只有一個判別函數就輸出直方圖。
l  Separate-groups復選項,根據前兩個判別函數值對每一類生成一張激點圖,共分為幾類就生成幾張散點圖。如果只有一個判別函數就輸出直方圖。
l  Territorial map復選項,生成用於根據函數值把觀測量分到各組中去的邊界圖。此種統計圖把一張圖的平面划分出與類數相同的區域。每一類占據一個區各類的均值在各區中用*號標出。如果僅有一個判別函數,則不作此圖。
 
(4) Display 欄選擇生成到輸出窗中的分類結果
 
l  Casewise results復選項,要求輸出每個觀測量包括判別分數、實際類、預測類(根據判別函數求得的分類結果)和后驗概率等。選擇此項還可以選擇其附屬選擇項:Limits cases to復選項,並在后面的小矩形框中輸入觀測量數n 選擇。此項則僅對前n個觀測量輸出分類結果。觀測數量大時可以選擇此項。
l  Summary table復選項, 要求輸出分類的小結,給出正確分類觀測量數(原始類和根據判別函數計算的預測類相同)和錯分觀測量數和錯分率。
l  Leave-one-out classification復選項,輸出對每個觀測量進行分類的結果,所依據的判別是由除該觀測量以外的其他觀測量導出的。也稱為交互校驗結果
 
(5) 在Classification對話框的最下面有一個選擇項,用以選擇對缺失值的處理方法。選中 Replace missing value with mean復選項,即用該變量的均值代替缺失值。該選擇項前面的小矩形框中出現“.”時表示選定所示的處理方法.
 
 
 
5.Save對話框,指定生成並保存在數據文件中的新變量。如圖1-8 所示:
 

 
圖 1-8    Save 對話框
 
(1)  Predicted group membership復選項, 要求建立一個新變量,預測觀測量的分類。是根據判別分數把觀測量按后驗概率最大指派所屬的類。每運行一次Discriminant過程,就建立一個表明使用判別函數預測各觀測量屬於哪一類的新變量。第1 次運行建立新變量的變量名為dis_l,如果在工作數據文件中不把前一次建立的新變量刪除, 第n次運行Descriminant 過程建立的新變量默認的變量名為dis_n
(2)  Discriminant score復選項,要求建立表明判別分數的新變量。該分數是由未標准化的判別系數乘自變量的值,將這些乘積求和后加上常數得來。每次運行Discriminant過程都給出一組表明判別分數的新變量,建立幾個判別函數就有幾個判別分數變量。參與分析的觀測量共分為m類,則建立m個典則判別函數。指定該選擇項,就可以生成m-l 個表明判別分數的新變量。
(3)  Probabilities of group membership復選項,要求建立新變量, 表明觀測量屬於某一類的概率。有m類,對一個觀測量就會給出m個概率值,因此建立m 個新變量.
 
6. 選擇好各選擇項之后,點擊“OK”按鈕,提交運行Discriminant過程。
 
 
 
 
-----------------------------------------------------------------------------------------------------------------

友情協助:

特征庫  www.tezhengku.com
豆瓣統計學小組  www.douban.com/group/stats
 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM