【隨機森林】是由多個【決策樹】構成的,不同決策樹之間沒有關聯。
特點
- 可以使用特征多數據,且無需降維使用,無需特征選擇。
- 能夠進行特征重要度判斷。
- 能夠判斷特征間的相關影響
- 不容器過擬合。
- 訓練速度快、並行。
- 實現簡單。
- 不平衡數據集、可平衡誤差。
- 特征遺失的數據,仍可以維持准確度。
支持平台
- scikit-learn
- Spark MLlib
- DolphinDB
- XGBoost
准確度
使用步驟
- 隨機抽樣,訓練【決策樹】
- 隨機選屬性,做節點分裂屬性
- 重復步驟2,直到不能再分裂。
- 建立大量決策樹、形成森林。
應用方向
- 分類 (對離散值的分類)
- 回歸 (對連續值的回歸)
- 聚類 (無監督學習聚類)
- 異常檢測