Logistic回歸分析(logit回歸)一般可分為3類,分別是二元Logistic回歸分析、多分類Logistic回歸分析和有序Logistic回歸分析。logistic回歸分析類型如下所示。
Logistic回歸分析用於研究X對Y的影響,並且對X的數據類型沒有要求,X可以為定類數據,也可以為定量數據,但要求Y必須為定類數據,並且根據Y的選項數,使用相應的數據分析方法。
- 如果Y有兩個選項,如願意和不願意、是和否,那么應該使用二元Logistic回歸分析(SPSSAU【進階方法->二元logit】);
- 如果Y有多個選項,並且各個選項之間可以對比大小,例如,1代表“不願意”,2代表“無所謂”,3代表“願意”,這3個選項具有對比意義,數值越高,代表樣本的願意程度越高,那么應該使用多元有序Logistic回歸分析(SPSSAU【進階方法->有序logit】);
- 如果Y有多個選項,並且各個選項之間不具有對比意義,例如,1代表“淘寶”,2代表“天貓”,3代表“京東”,4代表“亞馬遜中國”,數值僅代表不同類別,數值大小不具有對比意義,那么應該使用多元無序Logistic回歸分析(SPSSAU【進階方法->多分類logit】)。
1、多分類logistic回歸分析基本說明
只要是logistic回歸,都是研究X對於Y的影響,區別在於因變量Y上,logistic回歸時,因變量Y是看成定類數據的,如果為二元(即選項只有2個),那么就是二元logistic回歸; 如果Y是多個類別且類別之間無法進行對比程度或者大小,則為多分類logistic回歸;如果Y是多個類別且類別之間可以對比程度大小(也稱為定量數據,或者有序定類數據),此時則使用有序logistic回歸。
多分類logistic回歸的難點在於:因變量為類別數據,研究X對Y的影響時,如果為類別數據,那么不能說越如何越如何,比如不能說越滿意越願意購買;而只能說相對小米手機來說,對於手機外觀越滿意越願意購買蘋果手機。這就是類別數據的特點,一定是相對某某而言。這就導致了多分類logistic回歸分析時,文字分析的難度加大,最好是使用SPSSAU的智能文字分析對應查看。
單獨進行多分類logistic回歸時,通常需要有以下步驟,分別是數據處理,模型似然比檢驗,參數估計分析和模型預測效果分析共4個步驟。
1) 數據處理
如果說因變量Y的類別個數很多,比如為10個,此時建議時對類別進行組合下,盡量少的減少類別數量,便於后續進行分析。此步驟可通過SPSSAU【數據處理->數據編碼】完成。
如果說自變量X是定類數據,那么可對X進行虛擬啞變量處理,使用SPSSAU數據處理模塊的生成變量功能。關於虛擬啞變量問題,可參閱SPSSAU的手冊。其實定類數據在做影響關系研究時,通常都會做虛擬啞變量處理。而且做完之后,放入模型時一定要少放一項,比如專業分成理工科,文科類,體育藝術類。那么分析時一定要少放一項(少放的項是參考項),因為這涉及到分析時進行文字描述。至於少放那一項,由研究者自行決定即可。
處理完成數據,確保數據沒有問題后,直接進入SPSSAU【進階方法->多分類logit】進行分析即可。
2) 模型似然比檢驗
模型似然比檢驗用於對整個模型的有效性進行分析,一般對應的P值小於0.05即可。同時SPSSAU還提供AIC和BIC這兩個指標值,如果模型有多個,而且希望進行模型之間的優劣比較,可使用此兩個指標,此兩個指標是越小越好。具體可直接查看SPSSAU的智能分析和分析建議即可。
3) 參數估計分析
參數估計分析其實就已經開始進入實質性的分析了。首先可分析R方,即模型的擬合水平情況,SPSSAU提供3個R方值指標,分別是McFadden R 方、Cox & Snell R 方和Nagelkerke R 方。此3個R 方均為偽R 方值,其值越大越好,但其無法非常有效的表達模型的擬合程度,意義相對交小,而且多數情況此3個指標值均會特別小,研究人員不用過分關注於此3個指標值。一般報告其中任意一個R方值指標即可。
接着分析回歸系數,即X對於Y的影響。一定記住,分析時是先基於以***作為參照時,X對於**有正向影響。比如相對於小米手機作為參照項,用戶對於手機外觀的在乎程度會正向影響到用戶選擇蘋果手機。簡而言之即說明,相對小米手機,用戶越在乎外觀時,更加可能選擇蘋果手機。
4) 模型預測效果分析
多分類logistic回歸建模時,還可以對模型的預測效果進行分析,當然一般情況下我們關注於影響關系,因而對於預測效果等不那么看重。即模型預測質量的關注乎相對較低,多數時候直接忽略它。
2、如何使用SPSSAU進行多分類logistic回歸操作
關於多分類logistic回歸的操作上,SPSSAU操作如下:
此處的X為3個,分別是性別,學歷和年齡,學歷和年齡是定量數據直接納入模型中即可。但是性別是定類數據,所以先做了虛擬啞變量(數據處理->生成變量功能),然后性別分為兩項分別是男和女,以男作為參照項,因此把女放入了模型中。
至於分析結果如下:
此處模型檢驗的原定假設為:是否放入自變量(性別_女, 學歷, 年齡)兩種情況時模型質量均一樣;這里p值小於0.05,因而說明拒絕原定假設,即說明本次構建模型時,放入的自變量具有有效性,本次模型構建有意義。
模型的R方值僅為0.025,但一般報告下即可,偽R方值一般都比較低。特別需要注意分析:
上表格加藍色底紋的項為P值小於0.05即呈現出顯著的項,接下來逐一說明下,
性別_女的回歸系數值為-0.309,並且呈現出0.05水平的顯著性(z=-2.127,p=0.033<0.05),這說明相對於男性來講,女性更加偏好於小米手機。為什么這樣闡述呢,首先在多分類logistic回歸,SPSSAU將因變量Y的第1項(此處為小米手機)作為參照項。那么性別_女呈現出負向影響,就說明‘越女性,越偏向於小米手機’,因而結論就是,相對於華為手機來講,女性明顯更加偏好於小米手機。
相對小米手機來講,年齡的回歸系數值為-0.437,並且呈現出0.01水平的顯著性(z=-6.076,p=0.000<0.01),負向影響,即說明年齡越大(此處年齡是定量數據所以可以說年齡越大越如何),用戶越不偏好華為手機。那就是說年齡越大用戶越偏好於小米手機。
接着,相對於小米手機來講,在蘋果手機進行對比時,性別_女的回歸系數值為0.436,並且呈現出0.01水平的顯著性(z=4.192,p=0.000<0.01),意味着相對小米手機,性別_女會對蘋果顯著的正向影響關系。那就是說相對小米手機來講,女性更加偏好於蘋果手機的意思。
3、多分類logistic相關問題?
在使用SPSSSAU進行多分類logistic回歸時,可能會出現一些問題,比如提示奇異矩陣,質量異常,Y值只能為0或1等,接下來一一說明。
第1點:出現奇異矩陣或質量異常
如果做多分類logsitic回歸時提示奇異矩陣,通常有兩個原因,一是虛擬啞變量設置后,本應該少放1項作為參考項但是並沒有,而是把所有的啞變量項都放入框中,這會導致絕對的共線性問題即會出現奇異矩陣矩陣。二是X之間有着太強的共線性(可使用通用方法的線性回歸查看下VIF值),此時也可能導致模型無法擬合等。先找出原因,然后把有問題的項移出模型中即可。
同時,如果因變量Y的分布極其不均勻,SPSSAU建議可先對類別進行組合,可使用數據處理里面的數據編碼完成。
第2點:提示“Y的選項過少或過多”?
如果出現此提示,意味着因變量Y的選項不符合多分類logistic回歸分析要求,通常情況下因變量Y的分類個數應該介於3~8個之間。
-
用戶可使用頻數分析功能進行查看因變量Y的選項個數情況;
-
如果選項個數過多需要進行合並處理等,可使用【數據處理->數據編碼】功能操作。
第3點:OR值的意義
OR值=exp(b)值,即回歸系數的指數次方,該值在醫學研究里面使用較多,實際意義是X增加1個單位時,Y的增加幅度。如果僅僅是研究影響關系,該值意義較小。
第4點: wald值或z值
z 值=回歸系數/標准誤,該值為中間過程值無意義,只需要看p 值即可。有的軟件會提供wald值(但不提供z 值,該值也無實際意義),wald值= z 值的平方。
第5點: McFadden R 方、Cox & Snell R 方和Nagelkerke R 方相關問題?
Logit回歸時會提供此3個R 方值(分別是McFadden R 方、Cox & Snell R 方和Nagelkerke R 方),此3個R 方均為偽R 方值,其值越大越好,但其無法非常有效的表達模型的擬合程度,意義相對交小,而且多數情況此3個指標值均會特別小,研究人員不用過分關注於此3個指標值。一般報告其中任意一個R方值指標即可。
以上就是本次分享的內容,登錄SPSSAU官網了解更多。