學習筆記106—統計學 決定系數(Coefficient of Determination) 和 相關系數 (Correlation of Coefficient )


在對數據進行線性回歸計算之后,我們能夠得出相應函數的系數, 那么我們如何知道得出的這個系數對方程結果的影響有強呢?
所以我們用到了一種方法叫 coefficient of determination (決定系數) 來判斷 回歸方程 擬合的程度.


首先我們先定義幾個概念

1. Sum Of Squares Due To Error


對於第i個觀察點, 真實數據的Yi與估算出來的Yi-head的之間的差稱為第i個residual, SSE 就是所有觀察點的residual的和,

SSE越接近於0,說明模型選擇和擬合更好,數據預測也越成功。接下來的MSE和RMSE因為和SSE是同出一宗,所以效果一樣,

其中,

MSE(均方差): 該統計參數是預測數據和原始數據對應點誤差的平方和的均值,也就是SSE/n,和SSE沒有太大的區別,計算公式如下:MSE = SSE/n

RMSE(均方根): 該統計參數,也叫回歸系統的擬合標准差,是MSE的平方根,就算公式如下: RMSE = √MSE。


2. Total Sum Of Squares

3. Sum Of Squares Due To Regression

通過以上我們能得到以下關於他們三者的關系

4、

決定系數: 判斷 回歸方程 的擬合程度

(coefficient of determination)決定系數也就是說: 通過回歸方程得出的 dependent variable 有 number% 能被 independent variable 所解釋. 判斷擬合的程度

單獨看 R-Squared,並不能推斷出增加的特征是否有意義。通常來說,增加一個特征值,R-Squared 可能變大也可能保持不變,兩者不一定呈正相關。多元線性回歸中,校正決定系數(Adjusted R-Squared)引入了樣本數量和特征數量,公式如下:

其中,n 是樣本數量,p 是特征數量。Adjusted R-Squared 抵消樣本數量對 R-Squared 的影響,做到了真正的 0~1,越大越好。

增加一個特征變量,如果這個特征有意義,Adjusted R-Square 就會增大,若這個特征是冗余特征,Adjusted R-Squared 就會減小。

 

(Correlation coefficient) 相關系數 : 測試dependent variable 和 independent variable 他們之間的線性關系有多強. 也就是說, independent variable 產生變化時 dependent variable 的變化有多大.



可以反映是正相關還是負相關。

原文鏈接:https://blog.csdn.net/ytdxyhz/article/details/51730995


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM