作者|ANIRUDDHA BHANDARI
編譯|VK
來源|Analytics Vidhya
概述
- 理解R方和調整R方的概念
- 了解R方和調整R方之間的關鍵區別
介紹
當我開始我的數據科學之旅時,我探索的第一個算法是線性回歸。
在理解了線性回歸的概念和算法的工作原理之后,我非常興奮地使用它並在問題陳述中做出預測。我相信你們大多數人也會這么做的。但是一旦我們建立了模型,下一步是什么呢?
接下來是棘手的部分。一旦我們建立了模型,下一步就是評估它的性能。毋庸置疑,模型評價是一項關鍵性的任務,它凸顯了模型的不足。
選擇最合適的評價指標是一個關鍵的任務。而且,我遇到了兩個重要的指標:除了MAE/MSE/RMSE,有R方和調整R方。這兩者有什么區別?我應該用哪一個?
R方和調整R方是兩個評估指標,對於任何一個數據科學的追求者來說,這兩個指標可能會讓他們感到困惑。
它們對評估回歸問題都非常重要,我們將深入了解和比較它們。它們各有利弊,我們將在本文中詳細討論。
目錄
- 殘差平方和
- 了解R方統計量
- 關於R方統計量的問題
- 調整R方統計量
殘差平方和
為了清楚地理解這些概念,我們將討論一個簡單的回歸問題。在這里,我們試圖根據“花在學習上的時間”來預測“獲得的分數”。學習時間是我們的自變量,考試成績是我們的因變量或目標變量。
我們可以繪制一個簡單的回歸圖來可視化這些數據。
黃點代表數據點,藍線是我們預測的回歸線。如你所見,我們的回歸模型並不能完美地預測所有的數據點。
那么我們如何利用這些數據來評估回歸線的預測呢?我們可以從確定數據點的殘差開始。
數據中某一點的殘差是實際值與線性回歸模型預測值之間的差值。
殘差圖告訴我們回歸模型是否適合數據。殘差的平方實際上是回歸模型優化的目標函數。
利用殘差值,我們可以確定殘差的平方和,也稱為殘差平方和或RSS。。
RSS值越低,模型預測值越好。或者我們可以這樣說——如果回歸線使RSS值最小化,那么回歸線就是最佳擬合線。
但這其中有一個缺陷——RSS是一個尺度變量統計。由於RSS是實際值和預測值的平方差之和,因此該值取決於目標變量的大小。
例子:
假設你的目標變量是銷售產品所產生的收入。殘差取決於目標的大小。如果收入大小以“1百盧比”為單位計算的話(即目標可能是1、2、3等),那么我們可能會得到0.54左右的RSS(假設)。
但是如果收入目標變量以“盧比”為單位(即目標值為100、200、300等),那么我們可能會得到一個更大的RSS,即5400。即使數據沒有變化,RSS的值也會隨着目標的大小而變化。這使得很難判斷什么是好的RSS值。
那么,我們能想出一個更好的尺度不變的統計量嗎?這就是R方出現的地方。
R方統計量
R方統計量是一種尺度不變的統計量,它給出了線性回歸模型解釋的目標變量的變化比例。
這可能看起來有點復雜,所以讓我在這里把它分解。為了確定模型解釋的目標變化比例,我們需要首先確定以下內容-
平方和(TSS)
目標變量的總變化是實際值與其平均值之差的平方和。
TSS或總平方和給出了Y的總變化量。我們可以看到它與Y的方差非常相似。雖然方差是實際值和數據點之間差的平方和的平均值,TSS是平方和的總和。
既然我們知道了目標變量的總變化量,我們如何確定模型解釋的這種變化的比例?我們回到RSS。
殘差平方和(RSS)
正如我們前面討論的,RSS給出了實際點到回歸線距離的總平方。殘差,我們可以說是回歸線沒有捕捉到的距離。
因此,RSS作為一個整體給了我們目標變量中沒有被我們的模型解釋的變化。
R方
現在,如果TSS給出Y的總變化量,RSS給出不被X解釋的Y的變化量,那么TSS-RSS給出了Y的變化,並且這部分變化是由我們的模型解釋的!我們可以簡單地再除以TSS,得到由模型解釋的Y中的變化比例。這是我們的R方統計量!
R方=(TSS-RSS)/TSS
=解釋變化/總變化
=1–未解釋的變化/總變化
因此,R方給出了目標變量的可變性程度,由模型或自變量解釋。如果該值為0.7,則意味着自變量解釋了目標變量中70%的變化。
R方始終介於0和1之間。R方越高,說明模型解釋的變化越多,反之亦然。
如果RSS值很低,這意味着回歸線非常接近實際點。這意味着自變量解釋了目標變量的大部分變化。在這種情況下,我們會有一個非常高的R方值。
相反,如果RSS值非常高,則意味着回歸線遠離實際點。因此,自變量無法解釋目標變量中的大部分變量。這會給我們一個很低的R方值。
所以,這就解釋了為什么R方值給出了目標變量的變化量。
關於R方統計量的問題
R方統計並不完美。事實上,它有一個主要缺陷。不管我們在回歸模型中添加多少變量,它的值永遠不會減少。
也就是說,即使我們在數據中添加冗余變量,R方的值也不會減少。它要么保持不變,要么隨着新的自變量的增加而增加。
這顯然沒有意義,因為有些自變量在確定目標變量時可能沒有用處。調整R方處理了這個問題。
調整R方統計量
調整R方考慮了用於預測目標變量的自變量數量。在這樣做的時候,我們可以確定在模型中添加新的變量是否會增加模型的擬合度。
讓我們看看調整R方的公式,以便更好地理解它的工作原理。
在這里,
-
n表示數據集中的數據點數量
-
k表示自變量的個數
-
R代表模型確定的R方值
因此,如果R方在增加一個新的自變量時沒有顯著增加,那么調整R方值實際上會減少。
另一方面,如果增加新的自變量,我們看到R方值顯著增加,那么調整R方值也會增加。
如果我們在模型中加入一個隨機自變量,我們可以看到R方值和調整R方值之間的差異。
如你所見,添加隨機獨立變量無助於解釋目標變量的變化。我們的R方值保持不變。因此,給我們一個錯誤的指示,這個變量可能有助於預測輸出。然而,調整R方值下降,表明這個新變量實際上沒有捕捉到目標變量的趨勢。
顯然,當回歸模型中存在多個變量時,最好使用調整R方。這將使我們能夠比較具有不同數量獨立變量的模型。
結尾
在這篇文章中,我們研究了R方統計值是什么,它在哪里不穩定。我們還研究了調整R方。
希望這能讓你更好地理解事情。現在,你可以謹慎地確定哪些自變量有助於預測回歸問題的輸出。
原文鏈接:https://www.analyticsvidhya.com/blog/2020/07/difference-between-r-squared-and-adjusted-r-squared/
歡迎關注磐創AI博客站:
http://panchuang.net/
sklearn機器學習中文官方文檔:
http://sklearn123.com/
歡迎關注磐創博客資源匯總站:
http://docs.panchuang.net/