對於分類型自變量與數值型因變量之間的關系,我們可以通過方差分析來研究;而對於數值型自變量和數值型因變量之間的關系,我們可以進行相關和回歸分析。如果研究的是兩個變量之間的關系,稱為簡單回歸分析;如果研究的是兩個以上變量之間的關系,稱為多元回歸分析。此外,按照關系的形態,也可以分為線性回歸分析與非線性回歸分析。
相關關系
變量之間的關系
變量之間的關系可分為2種類型:函數關系和相關關系。函數關系是意義對應的關系,但在實際問題中,影響一個變量的因素非常多,造成了變量之間關系的不確定性。變量之間的不確定的數量關系,稱為相關關系(correlation)。
相關關系的描述
在進行相關分析時,對總體有兩個假定:
(1)兩個變量之間是線性關系;
(2)兩個變量都是隨機變量。
散點圖
相關關系的表現形態大體上分為線性相關、非線性相關、完全相關、不相關,線性相關又分為正相關和負相關。
相關系數
相關系數是根據樣本數據計算出的度量2個變量之間線性關系程度的統計量。如果是根據總體數據算出,稱為總體相關系數($\rho$);如果不是根據樣本數據算出的,稱為樣本相關系數($r$),也稱線性相關系數或Pearson相關系數:
$$r=\frac{n\sum xy-\sum x\sum y}{\sqrt{n\sum x^2-(\sum x)^2}\cdot \sqrt{n\sum y^2-(\sum y)^2}}$$
相關系數的性質如下:
(1)r的取值范圍是[-1,1],0<r≤1,表明x與y存在正相關關系,-1<r≤0,表明x與y存在負相關關系;
(2)對稱性,$r_{xy}=r_{yx}$;
(3)r的數值大小與x、y的原點、尺度無關;
(4)r僅能描述線性關系,不能用於非線性關系。r=0只能說明2個變量不存在線性相關關系,不能說明它們不相關,可能存在非線性相關關系;
(5)相關關系不代表因果關系;
根據經驗,將|r|≥0.8視為高度相關,將0.5≤|r|≤0.8視為中度相關,將0.3≤|r|<0.5視為低度相關,將|r|<0.3視為不相關。
相關關系的顯著性檢驗
總體相關系數$\rho$是未知的,可將樣本相關系數r作為$\rho$的近似估計值,但由於抽樣波動的影響,需要進行顯著性檢驗(考察r的可靠性)。
r的抽樣分布
當$\rho$為較大的正值時,r呈現左偏分布;當$\rho$為較大的負值時,r呈現右偏分布;當$\rho$接近0,樣本量n很大時,才能認為r是接近正態分布的隨機變量。
提出假設
$$H_0:\rho=0;H_1:\rho \neq0$$
檢驗統計量
由於假設r服從正態分布具有較大的風險,故使用t檢驗,既可以用於大樣本,也可以用於小樣本。
$$t=|r|\sqrt{\frac{n-2}{1-r^2}} \sim t(n-2)$$
統計決策
如果$|t|>t_{(\alpha/2)}(n-2)$,則拒絕原假設,總體的兩個變量之間存在顯著的線性關系。
一元線性回歸
相關分析的目的在於測量變量之間的關系強度(r),回歸分析的目的是考察變量之間的數量關系,主要解決以下幾個問題:
(1)利用一組樣本數據,確定變量之間的數學關系式;
(2)對這些關系式的可信程度進行各種統計檢驗,找出哪些變量的影響是顯著的,哪些是不顯著的;
(3)利用關系式,根據一個或幾個變量的取值來估計另一個變量的取值,並給出估計的可靠程度。
一元線性回歸模型
回歸模型
只涉及一個自變量的回歸稱為一元回歸,描述兩個具有線性關系的變量之間關系的方程稱為回歸模型,一元線性回歸模型可表示為:
$$y=\beta_0+\beta_1x+\varepsilon$$
其中$\varepsilon$是被稱為誤差項的隨機變量,反映了變量線性關系外的隨機因素對y的影響。
上式稱為理論回歸模型,對它有以下假定:
(1)y與x之間具有線性關系;
(2)x是非隨機的,在重復抽樣中,x的取值是固定的;
以上2個假定表明,對於任何一個給定的x的值,y的取值都對應着一個分布,$E(y)=\beta_0+\beta_2x$代表一條直線。但由於單個y是從y的分布中抽出來的,可能不在這條直線上,因此,必須包含一個誤差項$\varepsilon$。
(3)誤差項$\varepsilon$是一個期望值為0的隨機變量,因此,對於一個給定的x值,y的期望值$E(y)=\beta_0+\beta_2x$,實際上等於假定模型的形式是一條直線;
(4)對於所有的x,$\varepsilon$的方差$\sigma^2$都相同,這意味着對於一個給定的x值,y的方差都等於$\sigma^2$;
(5)誤差項$\varepsilon$是一個服從正態分布的隨機變量,且獨立,即$\varepsilon \sim N(0,\sigma^2)$。一個特定的x值所對應的$\varepsilon$與其他x值對應的$\varepsilon$不相關。對於任何一個給定的x值,y都服從期望值為$\beta_0+\beta_1x$、方差為$\sigma^2$的正態分布,不同的x值,y的期望值不同,但方差相同。
回歸方程
描述y的期望值如何依賴自變量x的方程稱為回歸方程,一元線性回歸方程(誤差項的期望值為0)的形式為:
$$E(y)=\beta_0+\beta_2x$$
估計的回歸方程
總體回歸參數$\beta_0$和$\beta_1$是未知的,需要用樣本數據去估計。一元線性回歸的估計的回歸方程形式為:
$$\hat{y}=\hat{\beta_0}+\hat{\beta_1}x$$
參數的最小二乘估計
用最小化圖中垂直方向的離差平方和來估計參數$\beta_0$和$\beta_1$,這一方法稱為最小二乘法。
回歸直線的擬合優度
回歸直線與各觀測點的接近程度稱為回歸直線對數據的擬合優度。
變差
y的取值的波動稱為變差,它來自兩個方面:一是x的取值不同;二是除x以外的其它因素。一個具體的觀測值的變差為$y-\bar{y}$,它可以分解為:
$$y-\bar{y}=(y-\hat{y})+(\hat{y}-\bar{y})$$
n次觀測值的總變差稱為總平方和(SST):
$$SST=\sum (y_i-\bar{y})$$
將上式平方,得
$$\sum (y_i-\bar{y})^2=\sum (y_i-\hat{y})^2+\sum (\hat{y}-\bar{y})^2+2\sum (y_i-\hat{y_i})(\hat{y_i}-\bar{y})$$
上式最后一項等於0,故
$$\sum (y_i-\bar{y})^2=\sum (y_i-\hat{y})^2+\sum (\hat{y}-\bar{y})^2$$
式中$\sum (y_i-\bar{y})^2$為總平方和(SST);$\sum (\hat{y}-\bar{y})^2$為回歸平方和(SSR),它是可以由回歸直線來解釋的變差部分;$\sum (y_i-\hat{y})^2$為殘差平方和(SSE),它是不能由回歸直線來解釋的變差部分。
判定系數
回歸平方和占總平方和的比例稱為判定系數($R^2$),它度量了估計的回歸方程對觀測數據的擬合程度。
$$R^2=\frac{SSR}{SST}=\frac{\sum (\hat{y}-\bar{y})^2}{\sum (y_i-\bar{y})^2}$$
$R^2$的取值范圍是[0,1],越接近1,擬合程度越好。
一元線性回歸中,相關系數r是$R^2$的平方根,r與回歸系數$\hat{\beta_1}$的正負號相同。
估計標准誤差
判斷系數/相關系數可以度量回歸直線的擬合程度,而殘差平方和(SSE)可以說明實際觀測值$y_i$與回歸估計值$\hat{y_i}$之間的差異程度。估計標准誤差($s_e$)是均方殘差(MSE)的平方根,是度量觀測點在直線周圍散布狀況的統計量:
$$s_e=\sqrt{MSE}=\sqrt{\frac{SSE}{n-2}}=\sqrt{\frac{\sum (y_i-\hat{y_i})^2}{n-2}}$$
估計標准誤差是對誤差項$\varepsilon$的標准差的估計,可以看作是排除了線性關系后,y隨機波動大小的估計量。對n個觀測點擬合的所有直線中,估計標准誤差最小的一條是回歸直線。
顯著性檢驗
由於估計方程是根據樣本數據得到的,它是否能反映變量x和y的關系,還需要檢驗才能證實。
1.線性關系的檢驗
線性關系的顯著性檢驗是檢驗x與y之間的線性關系是否顯著,即能否用線性模型$y=\beta_0+\beta_1x+\varepsilon$描述二者的關系。
抽樣分布
回歸平方和(SSR)、殘差平方和(SSE)的自由度分別為1(自變量個數k)、n-2(n-k-1),除以對應的自由度,得均方回歸(MSR)、均方殘差(MSE),在原假設$H_0$成立的情況下,MSR與MSE之比服從F分布:
$$F=\frac{MSR}{MSE} \sim F(1,n-2)$$
提出假設
$$H_0:\beta_1=0;H_1:\beta_1 \neq 0$$
檢驗統計量
$$F=\frac{MSR}{MSE}=\frac{MSR/1}{MSE/(n-2)}$$
統計決策
若$F>f_\alpha$,則拒絕$H_0$,兩個變量之間具有顯著的線性關系。若以P值進行判斷,若小於$\alpha$,則拒絕原假設。
2.回歸系數的檢驗
回歸系數的顯著性檢驗是檢驗x與y的影響是否顯著,即檢驗一元線性回歸模型$y=\beta_0+\beta_1x+\varepsilon$的回歸系數$\beta_1$是否等於0,等於0則y不依賴於x。
抽樣分布
由樣本得到的回歸方程為$\hat{y}=\hat{\beta_0}+\hat{\beta_1}x$,樣本回歸系數$\hat{\beta_1}$服從正態分布,數學期望為:
$$E(\hat{\beta_1})=\beta_1$$
標准差為:
$$\sigma_{\hat{\beta_1}}=\frac{\sigma}{\sqrt{\sum x_i^2-\frac{1}{n}(\sum x_i)^2}}$$
由於$\sigma$未知,用其估計量$s_e$代替,則$\hat{\beta_1}$的估計的標准差為:
$$s_{\hat{\beta_1}}=\frac{s_e}{\sqrt{\sum x_i^2-\frac{1}{n}(\sum x_i)^2}}$$
則構造出的統計量服從t分布:
$$t=\frac{\hat{\beta_1}-\beta_1}{s_{\hat{\beta_1}}} \sim t(n-2)$$
提出假設
$$H_0:\beta_1=0;H_1:\beta_1 \neq 0$$
檢驗統計量
在原假設成立的情況下,$\beta_1=0$,則t統計量變為:
$$t=\frac{\hat{\beta_1}}{s_{\hat{\beta_1}}}$$
統計決策
若$|t|>t_{\alpha/2}$,則拒絕$H_0$,自變量x對因變量y的影響是顯著的。同樣,若$P-value<\alpha$,也拒絕$H_0$。
3.兩個檢驗的討論
在一元線性回歸中,由於自變量只有一個,上述F檢驗和t檢驗是等價的。但在多元回歸分析中,這兩種檢驗的意義是不同的,F檢驗用於檢驗總體回歸關系的顯著性,t檢驗用檢驗各個回歸系數的顯著性。
回歸分析結果的評價
利用回歸方程進行預測
所謂預測,就是通過自變量x的值來預測因變量y的取值。
點估計
利用估計的回歸方程,求出y的一個估計值就是點估計,它分為平均值的點估計和個別值的點估計。
平均值的點估計是利用估計的回歸方程,對x的一個特定值$x_0$。求出y的平均值的一個估計值$E(y_0)$。
個別值的點估計是利用估計的回歸方程,對x的一個特定值$x_0$。求出y的一個個別值的估計值$\hat{y_0}$。
區間估計
利用估計的回歸方程,對於x的一個特定值$x_0$,求出y的一個估計值的區間就是區間估計,它分為置信區間估計和預測區間估計。
y的平均值的置信區間估計
置信區間估計是對x的一個給定值$x_0$,求出y的平均值的估計區間,這一區間稱為置信區間。
$x=x_0$時,y的平均值(期望值)為$E(y_0)$,$E(y_0)$的估計值為
$$\hat{y_0}=\hat{\beta_0}+\hat{\beta_1}x_0$$
$\hat{y_0}$的標准差的估計量為:
$$s_{\hat{y_0}}=s_e\sqrt{\frac{1}{n}+\frac{(x_0-\bar{x})^2}{\sum_{i=1}^{n}(x_i-\bar{x})^2}}$$
則對於給定的$x_0$,$E(y_0)$在$1-\alpha$置信水平下的置信區間為:
$$\hat{y_0}±t{\alpha/2}s_e\sqrt{\frac{1}{n}+\frac{(x_0-\bar{x})^2}{\sum_{i=1}^{n}(x_i-\bar{x})^2}}$$
y的個別值的預測區間估計
預測區間估計是對x的一個給定值$x_0$,求出y的一個個別值的估計區間,這一區間稱為預測區間。
y的一個個別值$y_0$的標准差的估計量為:
$$s_{ind}=s_e\sqrt{1+\frac{1}{n}+\frac{(x_0-\bar{x})^2}{\sum_{i=1}^{n}(x_i-\bar{x})^2}}$$
則對於給定的$x_0$,y的一個個別值$y_0$在$1-\alpha$置信水平下的置信區間為:
$$\hat{y_0}±t{\alpha/2}s_e\sqrt{1+\frac{1}{n}+\frac{(x_0-\bar{x})^2}{\sum_{i=1}^{n}(x_i-\bar{x})^2}}$$
預測區間要比置信區間寬一點。
在利用回歸方差進行預測時,不要用樣本數據之外的x值去預測。如果x的取值在$x_L\sim x_U$之間,可以用處於$x_L\sim x_U$之間的x來估計$E(y)$和預測$y$,但用$x_L\sim x_U$之外的x得出的估計值和預測值就會很不理想。
殘差分析
回歸方程$y=\beta_0+\beta_1x+\varepsilon$的假定之一是$\varepsilon \sim N(0,\sigma^2)$,且對所有的x,誤差項的標准差都相同。假定如果不成立,后面的檢驗、估計、預測也就無從談起。確定關於$\varepsilon$的假定是否成立,可以進行殘差分析。
殘差
殘差是因變量的觀測值$y_i$與預測值$\hat{y_i}$之差,第i個觀測值的殘差為:
$$e_i=y_i-\hat{y_i}$$
殘差圖
可以通過分析殘差圖來判斷對誤差項$\varepsilon$的假設是否成立,殘差圖包括關於x的殘差圖、關於$\hat{y}$的殘差圖、標准化殘差圖等。關於x的殘差圖橫軸為x的值,縱軸為殘差$e_i=y_i-\hat{y_i}$。
如果對所有的x值,$\varepsilon$的方差都相等,則殘差圖中所有的點應落在一條水平帶中間:
如果對所有x的值,$\varepsilon$的方差不同,較大的x值對應較大的殘差,就違背了$\varepsilon$的方差相等的假設:
下圖表明所選擇的回歸模型不合理,應考慮曲線回歸或多元回歸模型:
標准化殘差
標准化殘差($z_e$)是殘差除以它的標准差后得到的數值,也稱為Pearson殘差。第i個觀察值的標准化殘差為
$$z_e=\frac{e_i}{s_e}=\frac{y_i-\hat{y_i}}{s_e}$$
如果誤差項$\varepsilon$服從正態分布這一假定成立,那么標准化殘差的分布也應服從正態分布,在下面的標准化殘差圖中,大約有95%的標准化殘差在$-2 \sim 2$之間,表明假定成立。