隨機森林為何要有放回抽樣


最近的一次面試經歷中,有被問到過隨機森林為什么要用有放回的隨機采樣。平時的自己確實沒有去仔細想過這些問題,所以最終慘淡而歸。

好了,回到正題吧,隨機森林是可以降低模型的方差,這里借鑒了下其它同學的回答,記錄一下。

1. 如果不放回抽樣,那么每棵樹用的樣本完全不同,基學習器之間的相似性小,投票結果差,模型偏差大;

2. 如果不抽樣,那么基學習器用所有樣本訓練,基學習器太相似差異性太小,模型的泛化性就很差;

3. 為什么不隨機抽樣?這里自助采樣可以產生一部分袋外樣本,可以用來做袋外估計;另外自助采樣一定程度上改變了每個基學習器所用數據的樣本分布,一定程度上引入了噪音,增加了模型的泛化能力。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM