模型誤差分析


一 Review

二 Estimator(估計)

下邊補充一些數理統計的知識:


 

由上圖可以看出,樣本的均值一般是不等於隨機變量的期望(除非你有無窮多個樣本點),而樣本均值的期望是與隨機變量的期望是一致的。樣本均值偏離隨機變量期望u的程度是由下圖中的var[m]所決定的,這個值取決於sample的數量。

 

 

variance估計的期望值始終小於variance的值,隨着N的增大,差距逐漸變小。


 

Bias and Variance of Estimator

寫到這里可能有小伙伴要問了,你不就只能做一次實驗嗎,寶可夢長大以后是不可逆的啊,你怎么會怎么找很多個f*呢,我們可以假設有很多的平行宇宙

在100個平行宇宙中獲得的f*長什么樣呢,如下所示:

可以看出,當使用簡單的model的時候,能滿足training data的曲線,散布較少,varinance較小,而復雜的model散布較廣,variance很大。

討論完variance,我們再來談談bias。我們不知道真實的f長什么樣,只有開發寶可夢的程序員知道,我們假設如下圖所示:

bias v.s. variance

那么怎么選擇合適的模型呢?下邊這個方式不建議:

對於上圖的說明,你可能會有一些困惑,現在以作業為例進行講解:

  既然上述方式得出的model不可靠,所以我們更多的是選擇交叉驗證這種方式。將training set 分成兩部分,其中training set用作訓練model,validation set用於選擇model。當我們選定好選擇的model以后(比如我們選擇的是model3),我們可以使用全部的training set的數據在訓練一遍我們的model,然后我們就可以在public testing set上測試我們的數據,有可能error會大於百分之五十(但是反映真實的測試情況,即反映private testing set),此時不建議重新返回訓練我們的model,這是因為我們的model已經考慮將public testing set 的bias考慮了進來。

假如我們將training set分的不好怎么辦?可以采用以下的方式:

參考:https://blog.csdn.net/soulmeetliang/article/details/72834429

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM