RandomForestClassifier(隨機森林檢測每個特征的重要性及每個樣例屬於哪個類的概率)

本文轉載自查看原文 2016-03-31 17:06 20858 python

#In the next recipe, we'll look at how to tune the random forest classifier.
#Let's start by importing datasets:

from sklearn import datasets
X, y = datasets.make_classification(1000)

# X(1000,20)
#y(1000) 取值范圍【0,1】

from sklearn.ensemble import RandomForestClassifier
rf = RandomForestClassifier()
rf.n_jobs=-1

rf.fit(X, y)
print ("Accuracy:\t", (y == rf.predict(X)).mean())
print ("Total Correct:\t", (y == rf.predict(X)).sum())


#每個例子屬於哪個類的概率
probs = rf.predict_proba(X)
import pandas as pd
probs_df = pd.DataFrame(probs, columns=['0', '1'])
probs_df['was_correct'] = rf.predict(X) == y
import matplotlib.pyplot as plt
f, ax = plt.subplots(figsize=(7, 5))
probs_df.groupby('0').was_correct.mean().plot(kind='bar', ax=ax)
ax.set_title("Accuracy at 0 class probability")
ax.set_ylabel("% Correct")
ax.set_xlabel("% trees for 0")
f.show()

#檢測重要特征
rf = RandomForestClassifier()
rf.fit(X, y)
f, ax = plt.subplots(figsize=(7, 5))
ax.bar(range(len(rf.feature_importances_)),rf.feature_importances_)
ax.set_title("Feature Importances")
f.show()

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 隨機森林是否需要交叉驗證+特征的重要性 pyspark 隨機森林特征重要性利用隨機森林進行特征重要性評估拓端tecdat|R語言隨機森林模型中具有相關特征的變量重要性 kaggle數據挖掘競賽初步--Titanic<隨機森林&特征重要性> 基於隨機森林做回歸任務（數據預處理、MAPE指標評估、可視化展示、特征重要性、預測和實際值差異顯示圖）特征重要性之排列重要性Permutaion Importance 【機器學習】隨機森林 Random Forest 得到模型后，評估參數重要性特征重要性--feature_importance xgboost 特征重要性計算