最近的一次面試經歷中,有被問到過隨機森林為什么要用有放回的隨機采樣。平時的自己確實沒有去仔細想過這些問題,所以最終慘淡而歸。
好了,回到正題吧,隨機森林是可以降低模型的方差,這里借鑒了下其它同學的回答,記錄一下。
1. 如果不放回抽樣,那么每棵樹用的樣本完全不同,基學習器之間的相似性小,投票結果差,模型偏差大;
2. 如果不抽樣,那么基學習器用所有樣本訓練,基學習器太相似差異性太小,模型的泛化性就很差;
3. 為什么不隨機抽樣?這里自助采樣可以產生一部分袋外樣本,可以用來做袋外估計;另外自助采樣一定程度上改變了每個基學習器所用數據的樣本分布,一定程度上引入了噪音,增加了模型的泛化能力。