原文連接:http://tecdat.cn/?p=6267
我最近一直在教授建模課程,並一直在閱讀和思考適合度的概念。 R方由協變量X解釋的結果Y的變化比例通常被描述為擬合優度的度量。這當然看起來非常合理,因為R平方測量觀察到的Y值與模型的預測(擬合)值的接近程度。
然而,要記住的重要一點是,R平方不會向我們提供有關我們的模型是否正確指定的信息。也就是說,它沒有告訴我們我們是否正確地指定了結果Y的期望如何取決於協變量。特別是,R平方的高值並不一定意味着我們的模型被正確指定。用一個簡單的例子說明這是最簡單的。
首先,我們將使用R模擬一些數據。為此,我們從標准正態分布(均值為零,方差一)中隨機生成X值。然后,我們生成結果Y等於X加上隨機誤差,再次使用標准正態分布:
然后我們可以擬合Y的(正確的)線性回歸模型,其中X作為協變量:
我們還可以繪制數據,用模型中的擬合線覆蓋:
觀察到(Y,X)數據並重疊擬合線。
現在讓我們重新生成數據,但是生成Y使得它的期望值是X的指數函數:
x < - rnorm(n)
y < - exp(x)+ rnorm(n)
當然,在實踐中,我們不模擬我們的數據 - 我們觀察或收集數據,然后嘗試將合理的模型擬合到它。因此,和以前一樣,我們可以從擬合簡單的線性回歸模型開始,該模型假設Y的期望是X的線性函數:
與第一種情況不同,我們獲得的參數估計(1.65,1.54)不是“真實”數據生成機制中參數的無偏估計,其中Y的期望是exp(X)的線性函數。此外,我們看到我們得到的R平方值為0.46,再次表明X(包括線性)解釋了Y中相當大的變化。我們可能認為這意味着我們使用的模型,即期望Y在X中是線性的,是合理的。但是,如果我們再次繪制觀察到的數據,並用擬合線覆蓋它:
將擬合線疊加到觀察到的數據上清楚地表明我們使用的模型未正確指定,盡管R平方值非常大。特別地,我們看到對於X的低值和高值,擬合值太小。這顯然是Y的期望取決於exp(X)這一事實的結果,而我們使用的模型假設它是X的線性函數。
這個簡單的例子說明,盡管R平方是一個重要的度量,但高值並不意味着我們的模型被正確指定。可以說,描述R平方的更好方法是“解釋變異”的度量。為了評估我們的模型是否正確指定,我們應該使用模型診斷技術,例如針對協變量的殘差圖或線性預測器。