自助采樣包含訓練集里63.2%的樣本?
在學習隨機森林的時候,經常會看到這么一句話“ 自助采樣法給bagging帶來的好處就是:由於每個學習器只是使用了%63.2的數據,剩下的約%36.8的樣本可以用作驗證集來對泛化性能進行“包外估計”。“
那么這個63.2%是怎么來的呢?假設我們有n個樣本,有放回的進行抽取,那么每個樣本不被抽取的概率為\(1 - \dfrac{1}{n}\)。我們需要抽取n輪,那么某個樣本一直不被抽到的概率為
\[p=(1 - \dfrac{1}{n})^n \]
當n足夠大的時候有
\[p = \lim_{n\to +\infty}(1 - \dfrac{1}{n})^n \]
這個p該怎么算?實際上在課本里有一個公式
\[e^x=\lim_{n\to\infty}(1 + \dfrac{x}{n})^n \]
當x=-1的時候對應着上述的p,由此可得自助采樣沒有采到的樣本大概占整個樣本集的\(e^{-1}\),那么自助采樣包含訓練集里的樣本即為\(1 - e^{-1} \approx 0.632 \approx \dfrac{2}{3}\)