隨機森林算法OOB_SCORE最佳特征選擇


Sklearn RandomForest算法(有監督學習),可以根據輸入數據,選擇最佳特征組合,減少特征冗余;

原理:由於隨機決策樹生成過程采用的Boostrap,所以在一棵樹的生成過程並不會使用所有的樣本,未使用的樣本就叫(Out_of_bag)袋外樣本,通過袋外樣本,可以評估這個樹的准確度,其他子樹葉按這個原理評估,最后可以取平均值,即是隨機森林算法的性能;

特征選擇原理:因為袋外樣本的存在,因此不需要進行十字交叉測試(節省時間),通過依次對每個特征賦予一個隨機數,觀察算法性能的變化,倘若變化大,則說明該特征重要,sklearn中會對每個特征賦予一個分數,分數越大,特征越重要,因此,可以根據特征重要性排序,然后選擇最佳特征組合;

RandomForestClassifier(n_estimators=200,oob_score=True)

oob_score : bool (default=False) Whether to use out-of-bag samples to estimate the generalization accuracy.

oob_score:  bool(默認=False) 是否使用袋外樣品進行估算 泛化精度。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM