自助采樣包含訓練集里63.2%的樣本?


自助采樣包含訓練集里63.2%的樣本?

在學習隨機森林的時候,經常會看到這么一句話“ 自助采樣法給bagging帶來的好處就是:由於每個學習器只是使用了%63.2的數據,剩下的約%36.8的樣本可以用作驗證集來對泛化性能進行“包外估計”。

那么這個63.2%是怎么來的呢?假設我們有n個樣本,有放回的進行抽取,那么每個樣本不被抽取的概率為\(1 - \dfrac{1}{n}\)。我們需要抽取n輪,那么某個樣本一直不被抽到的概率為

\[p=(1 - \dfrac{1}{n})^n \]

當n足夠大的時候有

\[p = \lim_{n\to +\infty}(1 - \dfrac{1}{n})^n \]

這個p該怎么算?實際上在課本里有一個公式

\[e^x=\lim_{n\to\infty}(1 + \dfrac{x}{n})^n \]

當x=-1的時候對應着上述的p,由此可得自助采樣沒有采到的樣本大概占整個樣本集的\(e^{-1}\),那么自助采樣包含訓練集里的樣本即為\(1 - e^{-1} \approx 0.632 \approx \dfrac{2}{3}\)


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM