RSS(Residual Sum of Squares)的自由度為什么是n-1呢


 

【轉載請注明出處】http://www.cnblogs.com/mashiqi  

 

在回歸問題中,偶爾我們會遇到求方差的估計的情況。舉了例子,我們常常通過Gaussian分布${\cal N}(\mu ,{\sigma^2})$的樣本集合$\{x_i\}_{i=1}^n$去估計分布的參數$\mu,\sigma^2$。對$\mu$的估計應該大家都很熟悉了:$\hat{\mu}=\bar{x} =\frac{1}{n} \sum_{i=1}^n x_i$,然而,對$\sigma^2$的估計,在教科書中,卻常常見到兩種形式:

        

第一種形式就不解釋了,第二種形式一般稱為對$\sigma^2$的無偏估計形式。這是除以$n-1$才是無偏的呢?這個問題往往是剛接觸的同學的困惑。不過這個$n-1$似乎也不是那么的天外來客:你看,$\bar{x}$與$x_i$並不是獨立的,這必然導致每一個求和項$(x_1-\bar{x}),(x_2-\bar{x}),\cdots,(x_n-\bar{x})$之間並不是完全的獨立的關系,因此求和之后直接除以$n$肯定不對啊,要調整,這個調整就是減一:$n \rightarrow n-1$。以上是一個make sense的解釋,相信大家聽了過后就會理解為什么要減一了。但是處女座同學和強迫症患者往往不會僅僅滿足於此(褲子都脫了,你就給我說這些!?),所以,下面就給一個mathematical的解釋。

 

RSS(Residual Sum of Squares)的定義是:

        

其中$\bar{x} = \frac{1}{n} \sum_{i=1}^n x_i$是平均值。我們的目標是沒有蛀牙把$RSS$轉化成一個個相互獨立的項然后求和。

        

我們記最后的中間的這個矩陣為$A$,由於$A$是實對稱的,因此肯定和對角矩陣合同。對$A$進行對角分解得:

        

其中$P$是正交矩陣。於是有

        

其中$y=P^Tx$。我們現在來檢查一下$y$的方差(假設$Ex=0$):

        

因此$y$的各個分量$\{y_i\}_{i=1}^n$之間相互獨立,並且方差為$\sigma^2$。所以從式來看,$RSS/(n-1)$確實是對$\sigma^2$的一個不錯的估計(無偏的)!

正交矩陣$P$是怎么得到的呢?

        

$\lambda=0$對應的單位特征向量為$(1/\sqrt{n},1/\sqrt{n},\cdots,1/\sqrt{n})^T$;

$\lambda=1$對應的$n-1$個單位特征向量為$p_i$,其中$p_i \in \{\alpha \in \mathcal{R}^n|(1,1,\cdots,1)\alpha=0,||\alpha||_2=1\}$,並且$p_i,p_j$之間相互垂直。

經過我抓耳撓腮的推導后,求出$p_i$是這樣的(大家拿去用吧不用感謝我/羞):

        

其中$p_i$的前$i-1$個分量是$\frac{1}{\sqrt{(i-1)i}}$,第$i$個分量是$-\frac{i-1}{\sqrt{(i-1)i}}$,后面的就算是0。其中需要專門給出的是$p_i=(\frac{1}{\sqrt{2}},-\frac{1}{\sqrt{2}},0,\cdots,0)$。因此:

        

因此,$x$和$y$之間的對應關系就是:

        

 

補充內容:

$$\sum_{i=1}^n (x_i - \bar{x})^2 = \sum_{i=1}^n x_i^2 - \frac{1}{n} \sum_{i,j=1}^n x_i x_j = \frac{1}{2n} \sum_{i,j=1}^n (x_i - x_j)^2$$

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM