討論最簡單的線性回歸, 假設有兩個變量Y和X,對他們的做二元的線性回歸
$\hat{y} = \hat{\beta}_{0}+\hat{\beta}_{1}x$
對於每個x,能計算出預測值y,預測值與實際值的殘差為$e_{i} = {y}_{i} - \hat{y}_{i}$
RSS為樣本殘差的平方和 $\sum_{i=1}^{n}{e_{i}^2}$
可以計算得出$\beta_{0}$和$\beta_{1}$使得RSS最小。
那么接下來的問題是,任何數據我們都可以用線性回歸去做擬合,1)比如本身這些數據其實並不明顯的線性關系 2)即使本身這些數據是來自一個線性關系,但是他們的采樣會導致偏差。我們需要了解我們求得的模型的可靠性是多大?
假設Y和X服從的關系是 $y = \beta_{0}+\beta_{1}x + \epsilon$,其中$\epsilon$是噪音均值為0,且與x獨立不相關,
如圖上紅色的線是沒有噪音的Y和X的關系,它是不可觀測的,而藍色的線是在有噪音的情況下根據圖中實際樣本通過線性回歸計算出來的。那我們如何認為我們得到的藍線是對紅線的准確估計呢?這就類似於我們用一個隨機變量的有限數量的樣本的平均值去估計這個隨機變量的均值,我們怎么知道到底有多准確呢?
那么95%的置信度認為, $\hat{\beta}_{1}$在下面范圍內,$\hat{\beta}_{0}$也有類似的結論。
知道了一個統計量的值以及他的樣本方差,便可以對進行t檢驗,比如我們檢驗:假設$\hat{\beta}_{1}$的均值為0, t值如下,通過t分布,可以查出某一個t值對應的p值,如果p值<0.05, 那么我可以拒絕該假設。
接下來我們觀察模型的准確度,有三個統計量,分別是RSE,R方,F值。
其中RSE是殘值的標准差,越小越好,可以用RSE與y的比值,作為一個准確性度量
R方的取值范圍是0到1,所以它給出的信息是一個相對的RSE值,計算方式如下。如果R方越接近於1,越是說明RSS足夠小。
其中TSS是Y值的方差 $\sum_{i=1}^{n}{(y_{i} - \bar{y})^{2}}$
F值的計算如下