Bootstrapping


轉自:https://blog.csdn.net/yuzhiping1/article/details/82989015

Bootstrapping從字面意思翻譯是拔靴法,從其內容翻譯又叫自助法,是一種再抽樣的統計方法。自助法的名稱來源於英文短語“to pull
oneself up by one’s bootstrap”,表示完成一件不能自然完成的事情。1977年美國Standford大學統計學教授Efron提出了一種新的增廣樣本的統計方法,就是Bootstrap方法,為解決小子樣試驗評估問題提供了很好的思路。
 
Bootstrapping算法,指的就是利用有限的樣本資料經由多次 重復抽樣,重新建立起足以代表母體 樣本分布的新樣本。bootstrapping的運用基於很多統計學假設,因此假設的成立與否影響采樣的准確性。
統計學中,bootstrapping可以指依賴於重置隨機抽樣的一切試驗。bootstrapping可以用於計算樣本估計的准確性。對於一個采樣,我們只能計算出某個 統計量(例如 均值)的一個取值,無法知道均值統計量的分布情況。但是通過 自助法(自舉法)我們可以模擬出均值統計量的近似分布。有了分布很多事情就可以做了(比如說有你推出的結果來進而推測實際總體的情況)。
bootstrapping方法的實現很簡單,假設抽取的樣本大小為n:
在原樣本中有放回的抽樣,抽取n次。每抽一次形成一個新的樣本,重復操作,形成很多新樣本,通過這些樣本就可以計算出樣本的一個分布。新樣本的數量通常是1000-10000。如果計算成本很小,或者對精度要求比較高,就增加新樣本的數量。
優點:簡單易於操作。
缺點:bootstrapping的運用基於很多統計學假設,因此假設的成立與否會影響采樣的准確性。
 
1、自助法的基本思路:
如果不知道總體分布,那么,對總體分布的最好猜測便是由數據提供的分布。自助法的要點是:①假定觀察值便是總體;②由這一假定的總體抽取樣本,即再抽樣。由原始數據經過再抽樣所獲得的與原始數據集含量相等的樣本稱為再抽樣樣本(resamples)或自助樣本(bootstrapsamples)。如果將由原始數據集計算所得的統計量稱為觀察統計量(observed
statistic)的話,那么由再抽樣樣本計算所得的統計量稱為自助統計量(bootstrap statistic)。自助法的關鍵所在是自助統計量與觀察統計量間的關系,就如同觀察統計量與真值間的關系,可表示為:
自助統計量::觀察統計量<=>觀察統計量::真值
其中,“::”表示二者間的關系,“<=>”表示等價於。也就是說,通過對自助統計量的研究,就可以了解有關觀察統計量與真值的偏離情況。
其中的再抽樣是有返還的抽樣(sampling with replacement)方式。假定有n個觀察值,自助樣本可按如下步驟獲得:
①將每一觀察值寫在紙簽上;
②將所有紙簽放在一個盒子中;
        ③混勻。抽取一個紙簽,記下其上的觀察值;
        ④放回盒子中,混勻,重新抽取;
        ⑤重復步驟③和④n次,便可得到一個自助樣本。
重復上述抽樣過程B次,便可得到B個自助樣本。(引用自劉文忠老師的一篇論文,感覺這樣講的比較容易懂了)。
 
2、Bootstrap的數學表達
 
其中等號上面一個小三角號表示定義。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM