自助采樣包含訓練集里63.2%的樣本?

在學習隨機森林的時候，經常會看到這么一句話“ 自助采樣法給bagging帶來的好處就是:由於每個學習器只是使用了%63.2的數據,剩下的約%36.8的樣本可以用作驗證集來對泛化性能進行“包外估計”。“

那么這個63.2%是怎么來的呢？假設我們有n個樣本，有放回的進行抽取，那么每個樣本不被抽取的概率為\(1 - \dfrac{1}{n}\)。我們需要抽取n輪，那么某個樣本一直不被抽到的概率為

\[p=(1 - \dfrac{1}{n})^n \]

當n足夠大的時候有

\[p = \lim_{n\to +\infty}(1 - \dfrac{1}{n})^n \]

這個p該怎么算？實際上在課本里有一個公式

\[e^x=\lim_{n\to\infty}(1 + \dfrac{x}{n})^n \]

當x=-1的時候對應着上述的p，由此可得自助采樣沒有采到的樣本大概占整個樣本集的\(e^{-1}\)，那么自助采樣包含訓練集里的樣本即為\(1 - e^{-1} \approx 0.632 \approx \dfrac{2}{3}\)

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 自助法隨機采樣過程中，對n個樣本進行n次有放回的隨機采樣，當n趨向於無窮大時，最終有多少數據從未被選擇過？騰訊推出超強少樣本目標檢測算法，公開千類少樣本檢測訓練集FSOD | CVPR 2020 訓練測試樣本划分噪聲對比估計(負樣本采樣) opencv 人臉識別（一）訓練樣本的處理基於MNIST數據集使用TensorFlow訓練一個包含一個隱含層的全連接神經網絡 Matlab划分測試集和訓練集推薦系統為什么要分測試集與訓練集隨機划分訓練集和測試集並保存 Tesseract-OCR 字符識別---樣本訓練 [轉]