隨機森林 參數


一、優點:

1.引入了兩個隨機(樣本隨機、特征隨機),所以不容易陷入過擬合。

2.由於樹的組合,可以處理非線性數據。

3.訓練結束后,模型可以給出feature的重要程度。

二、缺點

1.隨機森林的決策樹個數較多時,訓練時間和空間會較大。

2.在某些噪音較大的樣本集中,容易陷入過擬合。

三、框架參數

1. n_estimators:

弱學習器的最大迭代次數。一般來說,n_estimators太小,容易過擬合;太大,容易欠擬合。默認100

2.oob_score:

是否采用袋外樣本來評估模型的好壞。默認識False。可以設置為True,因為袋外分數反應了一個模型擬合后的泛化能力。

3.criterion:

CART樹做划分時對特征的評價標准。分類模型的CART分類樹分為gini、信息增益,默認為gini。回歸模型有均方誤差mse、絕對值誤差mae,默認mse。

四、決策樹參數

1.max_features

最大特征數。默認“None”,划分時考慮所有的特征數。;如果是”log2”意味着划分時最多考慮log2(n_features)個特征;如果是”sqrt”或者”auto”意味着划分時最多考慮sqrt(n_features) 個特征。如果是整數,代表考慮的特征絕對數。如果是浮點數,代表考慮特征百分比,即考慮(百分比xN)取整后的特征數。其中N為樣本總特征數。

一般的,max_features 值越大,模型學習能學習到的信息越多,越容易過擬合。

2.max_depth

決策樹最大深度。默認是決策樹在建立子樹的時候不會限制子樹的深度。常用的可以設置在10-100之間。值越大,決策樹越復雜,越容易過擬合。

3.min_samples_split

內部節點再划分所需最小樣本數。默認值是2.如果某節點的樣本數少於這個值,就不會再嘗試選擇最優特征來進行划分。

4.max_leaf_nodes

最大葉子節點數。限制最大葉子節點數,可以防止過擬合。

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM