Bootstrap 方法。(統計學)
統計學中 Bootstrap ,是一種重采樣(Resampling)技術。
機器學習中的Bagging,AdaBoost等方法其實都蘊含了Bootstrap的思想。
引述
在統計的世界,我們面臨的總是只有樣本,Where there is sample, there is uncertainty,正因為不確定性的存在,才使統計能夠生生不息。
傳說統計學家、數學家和物理學家乘坐一列火車上旅行,路上看到草原上有一只黑羊,統計學家說,“基於這個樣本來看,這片草原上所有的羊都是黑的”,數學家說,“只有眼前這只羊是黑的”,物理學家則說,“你們都不對,只有羊的這一面是黑的”。這是關於統計和其他學科的一個玩笑話,說明了統計的一些特征,比如基於樣本推斷總體。
一般情況下,總體永遠都無法知道,我們能利用的只有樣本,現在的問題是,樣本該怎樣利用呢?
Bootstrap的奧義也就是:既然樣本是抽出來的,那我何不從樣本中再抽樣(Resample)?J
ackknife的奧義在於:既然樣本是抽出來的,那我在作估計、推斷的時候“扔掉”幾個樣本點看看效果如何?
既然人們要質疑估計的穩定性,那么我們就用樣本的樣本去證明吧。
Bootstrap的一般的抽樣方式都是“有放回地全抽”(其實樣本量也要視情況而定,不一定非要與原樣本量相等),意思就是抽取的Bootstrap樣本量與原樣本相同,只是在抽樣方式上采取有放回地抽,
這樣的抽樣可以進行B次,每次都可以求一個相應的統計量/估計量,最后看看這個統計量的穩定性如何(用方差表示)。
Jackknife的抽樣痕跡不明顯,但主旨也是取樣本的樣本,在作估計推斷時,每次先排除一個或者多個樣本點,然后用剩下的樣本點求一個相應的統計量,最后也可以看統計量的穩定性如何。
作者:白馬負金羈
來源:CSDN
原文:https://blog.csdn.net/baimafujinji/article/details/50554664
版權聲明:本文為博主原創文章,轉載請附上博文鏈接!