從統計看機器學習(一) 一元線性回歸


  從統計學的角度來看,機器學習大多的方法是統計學中分類與回歸的方法向工程領域的推廣。

  “回歸”(Regression)一詞的濫觴是英國科學家Francis Galton(1822-1911)在1886年的論文[1]研究孩子身高與父母身高之間的關系。觀察1087對夫婦后,得出成年兒子身高=33.73+0.516*父母平均身高(以英寸為單位).他發現孩子的身高與父母的身高相比更加溫和:如果父母均非常高,那么孩子身高更傾向於很高但比父母矮;如果父母均非常矮,那么孩子身高更傾向於很矮但比父母高。這個發現被他稱作"回歸到均值"(regression to the mean).這也說明了的回歸模型是軟模型,回歸模型更多的刻畫了事物間的相關性而非因果性,它並不像物理模型或是一些函數(例如開普勒行星運動定律)那樣嚴格苛刻。

1.從一元線性回歸說起

  我們判斷體重是否合理時,卻要先量量自己的身高。因為無論在生理角度還是審美角度,體重與身高是有關系的。通常可認為人體是均勻的,即身高與體重間的關系是線性的,那么我們無非希望建立一個一元線性回歸模型

y=β01x+ε,

x是當前的身高、ε是誤差項,β0與β1是兩個常數,通常認為每個身高下的ε都是獨立的,且服從均值為0,方差為σ2的正態分布,記作ε-i.i.d~N(0,σ2).由於存在誤差,當前身高x下的體重y,記作y|x,同樣存在y|x~N(β01x,σ2),因此我們將自己的身高x帶入,就可以得到該身高下體重均值,並且有99.74%的把握認為該身高下,體重應該在(β01x-3σ,β01x+3σ)之間。當然,如果偏離了這個區間,體重就是不標准的,但是,這也要求σ的值不能太大。

  一元線性回歸就是要通過樣本數據估計出β0與β1這兩個常數的取值。當然,這是個仁者見仁、智者見智的問題,體重偏瘦的人為了保持身材,不希望有胖子的數據干擾模型;胖子會為了控制體重僅選擇身高-體重最標准的人數據。當然,考慮女生身高與體重關系時選擇男生的數據也是不合理的。我們依據自己的標准,選擇不同身高下n個人的身高-體重數據(x1, y1), (x2, y2) ,…, (xn, yn),用最小二乘法得到β0、β1的估計值:

由於樣本數據是我們按照規則挑選出來的,可以認為幾乎不存在噪聲數據,即σ的值不會太大,因此,當前身高下標准的體重范圍也會縮小,使得模型更加精准有效。這樣使用最小二乘法得到經驗回歸方程,即得到這樣的一條直線

是安全的。經驗回歸方程對樣本中的任意的身高xi的都能給出體重的估計值,體重的真實值與估計值的差稱為真實的殘差

由於殘差存在正負,為了累計殘差的效果,將全部樣本點的殘差進行平方再求和就得到了殘差平方和。最小二乘法就是求解讓殘差平方和達到最小的優化問題。最小二乘法是讓經驗回歸模型對全體樣本的沖突達到最小,即使經驗回歸模型不經過樣本中的任意一個點,但它會經過樣本的均值點

2.模型參數的估計過程

3.最小二乘估計的性質

首先,最小二乘估計是線性的。β01的估計值是y1,y2,…,yn的線性組合。同時,該估計是無偏的,即β01的估計值的期望分別與β01相同。

考慮模型是否有效,我們就要求估計值的方差

綜上,對於給定的x0,y0的估計值服從與以下正態分布

  這說明了在經驗回歸模型中,不同xi的估計值是無偏的,但方差大小一般不同。最小二乘法是唯一方差最小的無偏估計,也就是說,在全體的無偏模型中,最小二乘法的估計效果是最好的。從y0的估計值分布中我們可以看出,如果想減小模型的方差,就要擴大樣本容量,即增大n的值。同時,盡可能使樣本的分散以增大Lxx.回到上面的體重-身高建模問題,如果選擇不同身高、相同性別且體重-身高比例均為標准的人,那么運用最小二乘法很容易估計出該性別下最標准體重-身高的線性關系。

 

[1]Regression towards mediocrity in hereditary stature. Francis Galton, Journal of the Anthropological Institute, 1886, 15: 246 – 263


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM