R方(R-squared)及調整R方(Adjusted R-Square)區別
第一:R方(R-squared)
定義:衡量模型擬合度的一個量,是一個比例形式,被解釋方差/總方差。
公式:R-squared = SSR/TSS
=1 - RSS/TSS
其中:TSS是執行回歸分析前,響應變量固有的方差。
RSS殘差平方和就是,回歸模型不能解釋的方差。
SSR回歸模型可以解釋的方差。
綜上,R-squared 比列值區間在【0,1】
第二:線性回歸模型下,R方和相關系數
相關系數公式
我們知道,相關系數衡量兩個變量【預測變量X,響應變量Y】之間的"距離"。
1、一元線性回歸
R方在一元線性回歸模型中,衡量【響應變量X和預測變量Y】的線性關系。
R方=cor(X,Y)^2
但是在多元線性回歸模型中,因為涉及多個預測變量,所有R方就是衡量響應變量和多個預測變量之間的關系。
而相關系數,只是衡量一對變量之間的關系,所有就不能推廣了。
2、多元線性回歸模型
R平方=cov(y,yi)^2
其中相關系數的兩個變量變成,響應值和線性回歸的預測值了。當然一元線性也同樣適用了。
第三:調整R方(Adjusted R-Square)
其中,n 是樣本數量,p 是特征數量。Adjusted R-Squared 抵消樣本數量對 R-Squared 的影響,做到了真正的 0~1,越大越好。
因為在模型中,增加多個變量,即使事實上無關的變量,也會小幅度條R平方的值,當時其是無意義,所有我們調整了下,降低R平方的值。
簡單地說就是,用r square的時候,不斷添加變量能讓模型的效果提升,而這種提升是虛假的。
利用adjusted r square,能對添加的非顯著變量給出懲罰,也就是說隨意添加一個變量不一定能讓模型擬合度上升
原文鏈接:https://blog.csdn.net/Jesszen/article/details/81017669