參考鏈接:https://jingyan.baidu.com/article/597a064395087c312b524313.html
在回歸分析模型 Y=β0+β1X+ε(一元線性回歸模型)中,Y是被解釋變量,就稱為因變量。X是解釋變量,稱為自變量
。表示為:因變量Y隨自變量X的變化而變化。協變量是指那些人為很難控制的變量,通常在回歸分析中要排除這些因素對結果的影響。
“選擇變量”即是條件變量,並且有個條件定義按鈕(rule),通過這個按鈕可以給定一個條件,只有變量值滿足這個條件的樣本數據才參與回歸分析。
logistic回歸方法的選擇:輸入、向前、向后與條件、LR、Wald
http://www.datasoldier.net/archives/2023
當自變量較少,且研究者希望考察所有自變量與因變量間關系時,可考慮使用Enter法,強迫所有自變量參與建模,而不考慮是否有顯著影響。
當自變量較多,研究者希望軟件幫助篩選對因變量有顯著影響的自變量參與建模,此時,新手用戶可選擇【向前:LR】或【向前:條件】方式進行logistic逐步回歸建模。
模型摘要:一般用-2對數似然 體現模型的擬合度,一般這個-2對數似然越小說明模型擬合度越好
Hosmer and Lemeshow Test這是一個方程擬合度檢驗,做的是虛無假設,假設擬合無偏差,查看sig值,如果是>0.05,說明應該接受結果,即認同擬合方程與真實的方程基本沒有偏差。
也就是說這個sig值越大越好。
方程式中的變量顯著性<0.05,說明這個變量進入模型是有意義的。
如何判斷Logistic回歸中哪個自變量更重要?
轉載自:http://www.datasoldier.net/archives/tag/logistic%e5%9b%9e%e5%bd%92
在線性回歸中,SPSS軟件直接給出了各自變量的回歸系數以及對應的標准化回歸系數,可根據后者比較各自變量對因變量的重要性,十分方便。
但是我們發現在logistic回歸中,SPSS軟件只給出了回歸系數而沒有提供標准化后的回歸系數,那么此時應該如何判斷自變量的重要性呢?
logistic回歸中有一個非常重要的概念,叫做OR,通俗理解為解釋變量的危險程度。我在比較各自變量(解釋變量)重要性時,首選使用OR值的大小對自變量進行排序,
OR值越大說明對應的自變量越是重要。
比如上面的例子。Exp(B)即OR值,用Exp(B)對3個自變量進行排序,很顯然它們對目標變量的影響重要性依次為“動物脂肪攝入”> "高血脂史" > "A型性格" 。
這個辦法簡單有效,我認為最好是加個前提,logistic回歸模型對數據變異的擬合足夠優秀,模型能通過統計檢驗,樣本量的數量足夠多能支持這個結論的穩定性。
此外,也可以考慮使用自變量wald檢驗(瓦爾德)的顯著性p值來對自變量重要性進行排序,經驗上它的結果和OR排序是一致的。
如何計算logistic 回歸的標准化回歸系數?
先用SPSS--分析--描述性統計---描述 得到各變量的標准(偏)差,然后用EXCEL計算,得到各變量的標准化回歸系數