一元線性回歸


對於分類型自變量與數值型因變量之間的關系,我們可以通過方差分析來研究;而對於數值型自變量和數值型因變量之間的關系,我們可以進行相關和回歸分析。如果研究的是兩個變量之間的關系,稱為簡單回歸分析;如果研究的是兩個以上變量之間的關系,稱為多元回歸分析。此外,按照關系的形態,也可以分為線性回歸分析非線性回歸分析

 

 

 

相關關系 

 

變量之間的關系

變量之間的關系可分為2種類型:函數關系和相關關系。函數關系是意義對應的關系,但在實際問題中,影響一個變量的因素非常多,造成了變量之間關系的不確定性。變量之間的不確定的數量關系,稱為相關關系(correlation)。

 

相關關系的描述

在進行相關分析時,對總體有兩個假定:

(1)兩個變量之間是線性關系;

(2)兩個變量都是隨機變量。

散點圖

相關關系的表現形態大體上分為線性相關非線性相關完全相關不相關,線性相關又分為正相關負相關

相關系數

相關系數是根據樣本數據計算出的度量2個變量之間線性關系程度的統計量。如果是根據總體數據算出,稱為總體相關系數($\rho$);如果不是根據樣本數據算出的,稱為樣本相關系數($r$),也稱線性相關系數或Pearson相關系數:

$$r=\frac{n\sum xy-\sum x\sum y}{\sqrt{n\sum x^2-(\sum x)^2}\cdot \sqrt{n\sum y^2-(\sum y)^2}}$$

相關系數的性質如下:

(1)r的取值范圍是[-1,1],0<r≤1,表明x與y存在正相關關系,-1<r≤0,表明x與y存在負相關關系;

(2)對稱性,$r_{xy}=r_{yx}$;

(3)r的數值大小與x、y的原點、尺度無關;

(4)r僅能描述線性關系,不能用於非線性關系。r=0只能說明2個變量不存在線性相關關系,不能說明它們不相關,可能存在非線性相關關系;

(5)相關關系不代表因果關系;

根據經驗,將|r|≥0.8視為高度相關,將0.5≤|r|≤0.8視為中度相關,將0.3≤|r|<0.5視為低度相關,將|r|<0.3視為不相關。

 

相關關系的顯著性檢驗

總體相關系數$\rho$是未知的,可將樣本相關系數r作為$\rho$的近似估計值,但由於抽樣波動的影響,需要進行顯著性檢驗(考察r的可靠性)。

r的抽樣分布

當$\rho$為較大的正值時,r呈現左偏分布;當$\rho$為較大的負值時,r呈現右偏分布;當$\rho$接近0,樣本量n很大時,才能認為r是接近正態分布的隨機變量。

提出假設

$$H_0:\rho=0;H_1:\rho \neq0$$

檢驗統計量

由於假設r服從正態分布具有較大的風險,故使用t檢驗,既可以用於大樣本,也可以用於小樣本。

$$t=|r|\sqrt{\frac{n-2}{1-r^2}} \sim t(n-2)$$

統計決策

如果$|t|>t_{(\alpha/2)}(n-2)$,則拒絕原假設,總體的兩個變量之間存在顯著的線性關系。

 

 

 

一元線性回歸

相關分析的目的在於測量變量之間的關系強度(r),回歸分析的目的是考察變量之間的數量關系,主要解決以下幾個問題:

(1)利用一組樣本數據,確定變量之間的數學關系式;

(2)對這些關系式的可信程度進行各種統計檢驗,找出哪些變量的影響是顯著的,哪些是不顯著的;

(3)利用關系式,根據一個或幾個變量的取值來估計另一個變量的取值,並給出估計的可靠程度。

 

一元線性回歸模型

回歸模型

只涉及一個自變量的回歸稱為一元回歸,描述兩個具有線性關系的變量之間關系的方程稱為回歸模型,一元線性回歸模型可表示為:

$$y=\beta_0+\beta_1x+\varepsilon$$

其中$\varepsilon$是被稱為誤差項的隨機變量,反映了變量線性關系外的隨機因素對y的影響。

上式稱為理論回歸模型,對它有以下假定:

(1)y與x之間具有線性關系;

(2)x是非隨機的,在重復抽樣中,x的取值是固定的;

以上2個假定表明,對於任何一個給定的x的值,y的取值都對應着一個分布,$E(y)=\beta_0+\beta_2x$代表一條直線。但由於單個y是從y的分布中抽出來的,可能不在這條直線上,因此,必須包含一個誤差項$\varepsilon$。

(3)誤差項$\varepsilon$是一個期望值為0的隨機變量,因此,對於一個給定的x值,y的期望值$E(y)=\beta_0+\beta_2x$,實際上等於假定模型的形式是一條直線;

(4)對於所有的x,$\varepsilon$的方差$\sigma^2$都相同,這意味着對於一個給定的x值,y的方差都等於$\sigma^2$;

(5)誤差項$\varepsilon$是一個服從正態分布的隨機變量,且獨立,即$\varepsilon \sim N(0,\sigma^2)$。一個特定的x值所對應的$\varepsilon$與其他x值對應的$\varepsilon$不相關。對於任何一個給定的x值,y都服從期望值為$\beta_0+\beta_1x$、方差為$\sigma^2$的正態分布,不同的x值,y的期望值不同,但方差相同。

回歸方程

描述y的期望值如何依賴自變量x的方程稱為回歸方程,一元線性回歸方程(誤差項的期望值為0)的形式為:

$$E(y)=\beta_0+\beta_2x$$

估計的回歸方程

總體回歸參數$\beta_0$和$\beta_1$是未知的,需要用樣本數據去估計。一元線性回歸的估計的回歸方程形式為:

$$\hat{y}=\hat{\beta_0}+\hat{\beta_1}x$$

 

參數的最小二乘估計

用最小化圖中垂直方向的離差平方和來估計參數$\beta_0$和$\beta_1$,這一方法稱為最小二乘法

 

回歸直線的擬合優度

回歸直線與各觀測點的接近程度稱為回歸直線對數據的擬合優度

變差

y的取值的波動稱為變差,它來自兩個方面:一是x的取值不同;二是除x以外的其它因素。一個具體的觀測值的變差為$y-\bar{y}$,它可以分解為:

$$y-\bar{y}=(y-\hat{y})+(\hat{y}-\bar{y})$$

 

n次觀測值的總變差稱為總平方和(SST):

$$SST=\sum (y_i-\bar{y})$$

將上式平方,得

$$\sum (y_i-\bar{y})^2=\sum (y_i-\hat{y})^2+\sum (\hat{y}-\bar{y})^2+2\sum (y_i-\hat{y_i})(\hat{y_i}-\bar{y})$$

上式最后一項等於0,故

$$\sum (y_i-\bar{y})^2=\sum (y_i-\hat{y})^2+\sum (\hat{y}-\bar{y})^2$$

式中$\sum (y_i-\bar{y})^2$為總平方和(SST);$\sum (\hat{y}-\bar{y})^2$為回歸平方和(SSR),它是可以由回歸直線來解釋的變差部分;$\sum (y_i-\hat{y})^2$為殘差平方和(SSE),它是不能由回歸直線來解釋的變差部分。

判定系數

回歸平方和占總平方和的比例稱為判定系數($R^2$),它度量了估計的回歸方程對觀測數據的擬合程度。

$$R^2=\frac{SSR}{SST}=\frac{\sum (\hat{y}-\bar{y})^2}{\sum (y_i-\bar{y})^2}$$

$R^2$的取值范圍是[0,1],越接近1,擬合程度越好。

一元線性回歸中,相關系數r是$R^2$的平方根,r與回歸系數$\hat{\beta_1}$的正負號相同。

估計標准誤差

判斷系數/相關系數可以度量回歸直線的擬合程度,而殘差平方和(SSE)可以說明實際觀測值$y_i$與回歸估計值$\hat{y_i}$之間的差異程度。估計標准誤差($s_e$)是均方殘差(MSE)的平方根,是度量觀測點在直線周圍散布狀況的統計量:

$$s_e=\sqrt{MSE}=\sqrt{\frac{SSE}{n-2}}=\sqrt{\frac{\sum (y_i-\hat{y_i})^2}{n-2}}$$

估計標准誤差是對誤差項$\varepsilon$的標准差的估計,可以看作是排除了線性關系后,y隨機波動大小的估計量。對n個觀測點擬合的所有直線中,估計標准誤差最小的一條是回歸直線。

 

顯著性檢驗

由於估計方程是根據樣本數據得到的,它是否能反映變量x和y的關系,還需要檢驗才能證實。

 

1.線性關系的檢驗

線性關系的顯著性檢驗是檢驗x與y之間的線性關系是否顯著,即能否用線性模型$y=\beta_0+\beta_1x+\varepsilon$描述二者的關系。

抽樣分布

回歸平方和(SSR)、殘差平方和(SSE)的自由度分別為1(自變量個數k)、n-2(n-k-1),除以對應的自由度,得均方回歸(MSR)、均方殘差(MSE),在原假設$H_0$成立的情況下,MSR與MSE之比服從F分布:

$$F=\frac{MSR}{MSE} \sim F(1,n-2)$$

提出假設

$$H_0:\beta_1=0;H_1:\beta_1 \neq 0$$

檢驗統計量

$$F=\frac{MSR}{MSE}=\frac{MSR/1}{MSE/(n-2)}$$

統計決策

若$F>f_\alpha$,則拒絕$H_0$,兩個變量之間具有顯著的線性關系。若以P值進行判斷,若小於$\alpha$,則拒絕原假設。

 

2.回歸系數的檢驗

回歸系數的顯著性檢驗是檢驗x與y的影響是否顯著,即檢驗一元線性回歸模型$y=\beta_0+\beta_1x+\varepsilon$的回歸系數$\beta_1$是否等於0,等於0則y不依賴於x。

抽樣分布

由樣本得到的回歸方程為$\hat{y}=\hat{\beta_0}+\hat{\beta_1}x$,樣本回歸系數$\hat{\beta_1}$服從正態分布,數學期望為:

$$E(\hat{\beta_1})=\beta_1$$

標准差為:

$$\sigma_{\hat{\beta_1}}=\frac{\sigma}{\sqrt{\sum x_i^2-\frac{1}{n}(\sum x_i)^2}}$$

由於$\sigma$未知,用其估計量$s_e$代替,則$\hat{\beta_1}$的估計的標准差為:

$$s_{\hat{\beta_1}}=\frac{s_e}{\sqrt{\sum x_i^2-\frac{1}{n}(\sum x_i)^2}}$$

則構造出的統計量服從t分布:

$$t=\frac{\hat{\beta_1}-\beta_1}{s_{\hat{\beta_1}}} \sim t(n-2)$$

 

提出假設

$$H_0:\beta_1=0;H_1:\beta_1 \neq 0$$

檢驗統計量 

在原假設成立的情況下,$\beta_1=0$,則t統計量變為:

$$t=\frac{\hat{\beta_1}}{s_{\hat{\beta_1}}}$$

統計決策

若$|t|>t_{\alpha/2}$,則拒絕$H_0$,自變量x對因變量y的影響是顯著的。同樣,若$P-value<\alpha$,也拒絕$H_0$。

 

3.兩個檢驗的討論

在一元線性回歸中,由於自變量只有一個,上述F檢驗和t檢驗是等價的。但在多元回歸分析中,這兩種檢驗的意義是不同的,F檢驗用於檢驗總體回歸關系的顯著性,t檢驗用檢驗各個回歸系數的顯著性

 

回歸分析結果的評價

 

 

 

利用回歸方程進行預測

所謂預測,就是通過自變量x的值來預測因變量y的取值。

 

點估計

利用估計的回歸方程,求出y的一個估計值就是點估計,它分為平均值的點估計個別值的點估計

平均值的點估計是利用估計的回歸方程,對x的一個特定值$x_0$。求出y的平均值的一個估計值$E(y_0)$。

個別值的點估計是利用估計的回歸方程,對x的一個特定值$x_0$。求出y的一個個別值的估計值$\hat{y_0}$。

 

區間估計

利用估計的回歸方程,對於x的一個特定值$x_0$,求出y的一個估計值的區間就是區間估計,它分為置信區間估計預測區間估計

y的平均值的置信區間估計

置信區間估計是對x的一個給定值$x_0$,求出y的平均值的估計區間,這一區間稱為置信區間

$x=x_0$時,y的平均值(期望值)為$E(y_0)$,$E(y_0)$的估計值為

$$\hat{y_0}=\hat{\beta_0}+\hat{\beta_1}x_0$$

$\hat{y_0}$的標准差的估計量為:

$$s_{\hat{y_0}}=s_e\sqrt{\frac{1}{n}+\frac{(x_0-\bar{x})^2}{\sum_{i=1}^{n}(x_i-\bar{x})^2}}$$

則對於給定的$x_0$,$E(y_0)$在$1-\alpha$置信水平下的置信區間為:

$$\hat{y_0}±t{\alpha/2}s_e\sqrt{\frac{1}{n}+\frac{(x_0-\bar{x})^2}{\sum_{i=1}^{n}(x_i-\bar{x})^2}}$$

 

y的個別值的預測區間估計

預測區間估計是對x的一個給定值$x_0$,求出y的一個個別值的估計區間,這一區間稱為預測區間

y的一個個別值$y_0$的標准差的估計量為:

$$s_{ind}=s_e\sqrt{1+\frac{1}{n}+\frac{(x_0-\bar{x})^2}{\sum_{i=1}^{n}(x_i-\bar{x})^2}}$$

則對於給定的$x_0$,y的一個個別值$y_0$在$1-\alpha$置信水平下的置信區間為:

 $$\hat{y_0}±t{\alpha/2}s_e\sqrt{1+\frac{1}{n}+\frac{(x_0-\bar{x})^2}{\sum_{i=1}^{n}(x_i-\bar{x})^2}}$$

預測區間要比置信區間寬一點。

 

在利用回歸方差進行預測時,不要用樣本數據之外的x值去預測。如果x的取值在$x_L\sim x_U$之間,可以用處於$x_L\sim x_U$之間的x來估計$E(y)$和預測$y$,但用$x_L\sim x_U$之外的x得出的估計值和預測值就會很不理想。

 

 

 

 

 

 

殘差分析

回歸方程$y=\beta_0+\beta_1x+\varepsilon$的假定之一是$\varepsilon \sim N(0,\sigma^2)$,且對所有的x,誤差項的標准差都相同。假定如果不成立,后面的檢驗、估計、預測也就無從談起。確定關於$\varepsilon$的假定是否成立,可以進行殘差分析

 

殘差

殘差是因變量的觀測值$y_i$與預測值$\hat{y_i}$之差,第i個觀測值的殘差為:

$$e_i=y_i-\hat{y_i}$$

 

殘差圖

可以通過分析殘差圖來判斷對誤差項$\varepsilon$的假設是否成立,殘差圖包括關於x的殘差圖、關於$\hat{y}$的殘差圖、標准化殘差圖等。關於x的殘差圖橫軸為x的值,縱軸為殘差$e_i=y_i-\hat{y_i}$。

如果對所有的x值,$\varepsilon$的方差都相等,則殘差圖中所有的點應落在一條水平帶中間:

如果對所有x的值,$\varepsilon$的方差不同,較大的x值對應較大的殘差,就違背了$\varepsilon$的方差相等的假設:

下圖表明所選擇的回歸模型不合理,應考慮曲線回歸或多元回歸模型: 

 

標准化殘差

標准化殘差($z_e$)是殘差除以它的標准差后得到的數值,也稱為Pearson殘差。第i個觀察值的標准化殘差為

$$z_e=\frac{e_i}{s_e}=\frac{y_i-\hat{y_i}}{s_e}$$

如果誤差項$\varepsilon$服從正態分布這一假定成立,那么標准化殘差的分布也應服從正態分布,在下面的標准化殘差圖中,大約有95%的標准化殘差在$-2 \sim 2$之間,表明假定成立。

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM