【線性回歸】線性回歸模型中幾個參數的解釋


【線性回歸】線性回歸模型中幾個參數的解釋

R

  1. 決定系數/擬合優度

    類似於一元線性回歸,構造決定系數。稱為y關於自變量的樣本復相關系數。

其中,,有SST=SSR+SSE

總離差平方和記為SST,回歸平方和記為SSR,殘差平方和為SSE。

由公式可見,SSR是由回歸方程確定的,即是可以用自變量x進行解釋的波動,而SSE為x之外的未加控制的因素引起的波動。這樣,總離差平方和SST中能夠由方程解釋的部分為SSR,不能解釋的部分為SSE。

  1. 意義

意味着回歸方程中能被解釋的誤差占總誤差的比例。一般來說越大,擬合效果越好,一般認為超過0.8的模型擬合優度比較高。

需要注意的是當樣本量小時,很大(例如0.9)也不能肯定自變量與因變量之間關系就是線性的。

隨着自變量的增多,必定會越來越接近於1,但這會導致模型的穩定性變差,即模型用來預測訓練集之外的數據時,預測波動將會非常大,這個時候就會對作調整,調整R方可以消除自變量增加造成的假象。

F檢驗

0、預備知識

(1)假設檢驗

為了判斷與檢測X是否具備對Y的預測能力,一般可以通過相關系數、圖形等方法進行衡量,但這只是直觀的判斷方法。通過對回歸參數做假設檢驗可以為我們提供更嚴格的數量化分析方法。

(2)全模型與簡化模型

我們稱之為全模型(full Model,FM)

通過對某些回歸系數進行假設,使其取指定的值,把這些指定的值帶入全模型中,得到的模型稱為簡化模型(reduced model,RM)。常用的簡化方法將在之后介紹。

1、F檢驗

檢驗是線性模型的假設檢驗中最常用的一種檢驗,通過值的大小可以判斷提出的假設是否合理,即是否接受簡化模型。

  1. 為檢驗我們的假設是否合理,即評估簡化模型相對全模型擬合效果是否一樣好,需要先建立對兩個模型擬合效果的評價方法。這里我們通過計算模型的殘差平方和()來衡量模型擬合數據時損失的信息量,也表示模型的擬合效果。
  2. 需要注意到增加模型中待估參數的個數,模型擬合的殘差平方和()一定不會減小,所以即為簡化模型相對於全模型殘差平方和的增加量,即簡化模型相對全模型擬合數據時多損失的信息量。我們用"多損失的信息量"/"原損失的信息量"作為檢驗的統計量,得到
  3. 為了修正參數個數不同帶來的影響,讓分子分母分別除以各自的自由度。假設全模型中有個待估參數,簡化模型中有個待估參數,那么:的自由度為的自由度為,所以的自由度為。那么(2)中的值就變為了:

其中:

(0) 統計量服從自由度為分布

(1) 為全模型的殘差平方和,用來衡量全模型擬合數據時損失的信息,;

(2) 為簡化模型的殘差平方和,用來衡量簡化模型擬合數據時損失的信息;

(3) 分別為全模型和簡化模型給出的的預測值;

(4) 分別為分子分母的自由度。

2、假設檢驗的判別條件

,則在顯著性水平下拒絕簡化模型,具體細節參見置信區間。

3、最常研究的4種假設

(1)所有預測變量的回歸系數均為0;

(2)某些回歸系數為0;

(3)某些回歸系數相等;

(4)回歸系數滿足某些特定的約束。

T檢驗

 

  1. 概念

t值是對單個變量顯著性的檢驗,t值的絕對值大於臨界值說明該變量是顯著的,要注意的是t檢驗是對總體當中變量是否是真正影響因變量的一個變量的檢驗,即檢驗總體中該變量的參數是否為零,只不過總體中變量的參數永遠未知,只能用其無偏估量(參數的樣本估計量)來代替進行檢驗。

 計算公式:

  t統計量:

  自由度:v=n - 1

  適用條件:

  (1) 已知一個總體均數;

  (2) 可得到一個樣本均數及該樣本標准誤;

  (3) 樣本來自正態或近似正態總體。

  1. T檢驗的步驟

1)、建立虛無假設H0:μ1 = μ2,即先假定兩個總體平均數之間沒有顯著差異;

2)、計算統計量t值,對於不同類型的問題選用不同的統計量計算方法;

a:如果要評斷一個總體中的小樣本平均數與總體平均值之間的差異程度,其統計量t值的計算公式為:

   b:如果要評斷兩組樣本平均數之間的差異程度,其統計量t值的計算公式為:

  3)、根據自由度df=n-1,查t值表,找出規定的t理論值並進行比較。理論值差異的顯著水平為0.01級或0.05級。不同自由度的顯著水平理論值記為t(df)0.01和t(df)0.05

  4)、比較計算得到的t值和理論t值,推斷發生的概率,依據下表給出的t值與差異顯著性關系表作出判斷。

T值與差異顯著性關系表

t

P值

差異顯著程度

差異非常顯著

差異顯著

t < t(df)0.05

P > 0.05

差異不顯著

3、t檢驗應用條件:

1)當樣本例數較少時,要求樣本取自正態分布

2)做兩樣本均數比較時,還要求兩樣本總體發差相等。

4、若方差不等,可采用近似t檢驗

如果兩總體方差的差別有統計意義,即方差不等,兩小樣本均數的比較,可以選擇如下方法:

  1. 進行變量變換,如果變換后數據滿足t檢驗條件,再進行t檢驗;
  2. 采用非參數檢驗法(wilcoxon秩和檢驗)
  3. 近似t檢驗法(又稱校正t檢驗或檢驗),常用Cochran-Cox近似t檢驗、Satterthwaite法、AspinWelch法等。

P

  1. 概念

P值是一個概率:一個假設為真時,已有的樣本觀測結果出現的概率,即"假設為真"事件真實發生的概率。

如果出現了很小的P值,根據小概率原理(小概率事件不可能發生,一旦發生就不是小概率事件),就證明該事件不會發生(假設不為真),P值越小,"假設不為真"的概率(1-P)就越大,"假設不為真"事件就越顯著。

舉例:假設:變量X1的系數a=0;根據已有的樣本觀測,計算a=0的概率,這個概率就是P值。如果P值=0.05,就稱系數a有5%的可能性等於0。

置信度

1、置信度及其選取原則

置信限,也叫置信度(置信水平Confidence level)。一定概率下真值的取值范圍(可靠范圍)稱為置信區間。其概率稱為置信概率或置信度(置信水平),簡單的說就是:以測量值為中心,在一定范圍內,真值出現在該范圍內的幾率。置信區間:在某一置信度下,以測量值為中心,真值出現的范圍。

置信度的選取要符合小概率原理和滿足生產實際需要,同時首先要考慮控制犯拒真錯誤的概率,其次再設法使犯存偽錯誤的概率達到最小。

我們知道, 在實際中概率很小的隨機事件在個別試驗中幾乎是不可能發生的。因此,我們常常忽略了那些概率很小的事件發生的可能性,這個原理就叫做小概率事件的實際不可能性原理(簡稱小概率原理)。該原理與我們的常識經驗相符合。至於什么樣的概率算是小概率, 對於這個數值要做一個具體的規定。一般作分析數據處理時,我們常取顯著性水平(α)5% 作為小概率事件。

顯著性水平(α)與置信度(又稱置信水平,β)的關系為α=1-β。而置信度的選取則必須根據小概率原理和實際需要來綜合考慮,即置信度的高低應定得適當。統計學中通常取95%置信度,處理分析數據時,通常也取95%置信度。當然根據具體情況, 有時也可作適當調整,但這種調整應以滿足實際需要為前提條件。

如果選取的置信度太小,判斷失誤的可能性就較大,且因舍棄誤差小的數據過多,易犯"拒真"的錯誤;如選取的置信度太大,判斷失誤的機會小了,但往往實用意義不大,且因保留大誤差的數據過多,易犯"存偽"的錯誤。

在置信度的選取所帶來的兩類錯誤中,首先要考慮控制犯"拒真"錯誤的概率,其次再設法使犯"存偽"錯誤的概率達到最小。

2、置信區間與模型預測

在數理統計學中屬於區間估計問題。所謂區間估計是研究用未知參數的點估計值(從一組樣本觀測值算得的)作為近似值的精確程度和誤差范圍,是一個必須回答的重要問題。

經常聽到這樣的說法,"如果給定解釋變量值,根據模型就可以得到被解釋變量的預測值為……值"。這種說法是不科學的,也是計量經濟學模型無法達到的。如果一定要給出一個具體的預測值,那么它的置信水平則為0;如果一定要回答解釋變量以100%的置信水平處在什么區間中,那么這個區間是∞。

在實際應用中,我們當然也希望置信水平越高越好,置信區間越小越好,以增加預測的實用意義。如何才能縮小置信區間?

(1)增大樣本容量n。在同樣的置信水平下,n越大,從t分布表中查得自由度為(n-k-1)的臨界值越小;同時,增大樣本容量,在一般情況下可使減小,因為式中分母的增大是肯定的,分子並不一定增大。

(2)更主要的是提高模型的擬合優度,以減小殘差平方和。設想一種極端情況,如果模型完全擬合樣本觀測值,殘差平方和為0,則置信區間長度也為0,預測區間就是一點。

(3)提高樣本觀測值的分散度。在一般情況下,樣本觀測值越分散,作為分母的的值越大,致使區間縮小。置信水平與置信區間是矛盾的。置信水平越高,在其他情況不變時,臨界值越大,置信區間越大。如果要求縮小置信區間,在其他情況不變時,就必須降低對置信水平的要求。

   


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM