一、優點:
1.引入了兩個隨機(樣本隨機、特征隨機),所以不容易陷入過擬合。
2.由於樹的組合,可以處理非線性數據。
3.訓練結束后,模型可以給出feature的重要程度。
二、缺點
1.隨機森林的決策樹個數較多時,訓練時間和空間會較大。
2.在某些噪音較大的樣本集中,容易陷入過擬合。
三、框架參數
1. n_estimators:
弱學習器的最大迭代次數。一般來說,n_estimators太小,容易過擬合;太大,容易欠擬合。默認100
2.oob_score:
是否采用袋外樣本來評估模型的好壞。默認識False。可以設置為True,因為袋外分數反應了一個模型擬合后的泛化能力。
3.criterion:
CART樹做划分時對特征的評價標准。分類模型的CART分類樹分為gini、信息增益,默認為gini。回歸模型有均方誤差mse、絕對值誤差mae,默認mse。
四、決策樹參數
1.max_features
最大特征數。默認“None”,划分時考慮所有的特征數。;如果是”log2”意味着划分時最多考慮log2(n_features)個特征;如果是”sqrt”或者”auto”意味着划分時最多考慮sqrt(n_features) 個特征。如果是整數,代表考慮的特征絕對數。如果是浮點數,代表考慮特征百分比,即考慮(百分比xN)取整后的特征數。其中N為樣本總特征數。
一般的,max_features 值越大,模型學習能學習到的信息越多,越容易過擬合。
2.max_depth
決策樹最大深度。默認是決策樹在建立子樹的時候不會限制子樹的深度。常用的可以設置在10-100之間。值越大,決策樹越復雜,越容易過擬合。
3.min_samples_split
內部節點再划分所需最小樣本數。默認值是2.如果某節點的樣本數少於這個值,就不會再嘗試選擇最優特征來進行划分。
4.max_leaf_nodes
最大葉子節點數。限制最大葉子節點數,可以防止過擬合。