一 Review
二 Estimator(估計)
下邊補充一些數理統計的知識:
由上圖可以看出,樣本的均值一般是不等於隨機變量的期望(除非你有無窮多個樣本點),而樣本均值的期望是與隨機變量的期望是一致的。樣本均值偏離隨機變量期望u的程度是由下圖中的var[m]所決定的,這個值取決於sample的數量。
variance估計的期望值始終小於variance的值,隨着N的增大,差距逐漸變小。
Bias and Variance of Estimator
寫到這里可能有小伙伴要問了,你不就只能做一次實驗嗎,寶可夢長大以后是不可逆的啊,你怎么會怎么找很多個f*呢,我們可以假設有很多的平行宇宙
在100個平行宇宙中獲得的f*長什么樣呢,如下所示:
可以看出,當使用簡單的model的時候,能滿足training data的曲線,散布較少,varinance較小,而復雜的model散布較廣,variance很大。
討論完variance,我們再來談談bias。我們不知道真實的f長什么樣,只有開發寶可夢的程序員知道,我們假設如下圖所示:
bias v.s. variance
那么怎么選擇合適的模型呢?下邊這個方式不建議:
對於上圖的說明,你可能會有一些困惑,現在以作業為例進行講解:
既然上述方式得出的model不可靠,所以我們更多的是選擇交叉驗證這種方式。將training set 分成兩部分,其中training set用作訓練model,validation set用於選擇model。當我們選定好選擇的model以后(比如我們選擇的是model3),我們可以使用全部的training set的數據在訓練一遍我們的model,然后我們就可以在public testing set上測試我們的數據,有可能error會大於百分之五十(但是反映真實的測試情況,即反映private testing set),此時不建議重新返回訓練我們的model,這是因為我們的model已經考慮將public testing set 的bias考慮了進來。
假如我們將training set分的不好怎么辦?可以采用以下的方式:
參考:https://blog.csdn.net/soulmeetliang/article/details/72834429