隨機森林和每棵決策樹的決策邊界對比

本文轉載自查看原文 2019-11-20 22:23 262 集成學習/ 隨機森林/ 機器學習 Python/ 決策樹/ 數據挖掘/ scikit-learn 數據集

介紹：創建一個模擬數據集，構建一個包含 5 棵決策樹的隨機森林分類模型，可視化每棵樹和集成分類器的決策邊界，比較研究。

from sklearn.ensemble import RandomForestClassifier
from sklearn.datasets import make_moons
from sklearn.model_selection import train_test_split
import matplotlib.pyplot as plt
import mglearn

# 生成一個用於模擬的二維數據集
X, y = make_moons(n_samples=100, noise=0.25, random_state=3)
# 訓練集和測試集的划分
X_train, X_test, y_train, y_test = train_test_split(X, y, stratify=y,
                                                   random_state=42)
# 初始化一個包含 5 棵決策樹的隨機森林分類器
forest = RandomForestClassifier(n_estimators=5, random_state=2)
# 在訓練數據集上進行學習
forest.fit(X_train, y_train)

# 可視化每棵決策樹的決策邊界
fig, axes = plt.subplots(2, 3, figsize=(20, 10))
for i, (ax, tree) in enumerate(zip(axes.ravel(), forest.estimators_)):
    ax.set_title('Tree {}'.format(i))
    mglearn.plots.plot_tree_partition(X_train, y_train, tree, ax=ax)

# 可視化集成分類器的決策邊界
mglearn.plots.plot_2d_separator(forest, X_train, fill=True, ax=axes[-1, -1],
                               alpha=0.4)
axes[-1, -1].set_title('Random Forest')
mglearn.discrete_scatter(X_train[:, 0], X_train[:, 1], y_train)

plt.show()

從圖中看，每一棵單獨的決策樹都有不同程度的過擬合和錯誤，而隨機森林模型的過擬合程度較小，給出的決策邊界也較為平滑。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 八、Sklearn決策樹與隨機森林第五章：決策樹與隨機森林隨機森林和決策樹交叉驗證的使用 AI學習---分類算法[K-近鄰 + 朴素貝葉斯 + 決策樹 + 隨機森林 ] [ML學習筆記] 決策樹與隨機森林（Decision Tree&Random Forest）【R語言進行數據挖掘】決策樹和隨機森林機器學習(五)：通俗易懂決策樹與隨機森林及代碼實踐嶺回歸、Lasso回歸、logistic回歸模型、決策樹、隨機森林與K近鄰模型機器學習：以二元決策樹為基學習器實現隨機森林算法的回歸分析拓端tecdat|R語言用邏輯回歸、決策樹和隨機森林對信貸數據集進行分類預測