AdaBoostClassifier實戰

部分內容摘自：http://blog.csdn.net/sun_shengyun/article/details/54289955　　　

　這里我們用一個具體的例子來講解AdaBoostClassifier的使用。

#gnu
>>> from sklearn.model_selection import cross_val_score
>>> from sklearn.datasets import load_iris
>>> from sklearn.ensemble import AdaBoostClassifier
>>> iris = load_iris() #還是那個數據集
>>> clf = AdaBoostClassifier(n_estimators=100) #迭代100次
>>> scores = cross_val_score(clf, iris.data, iris.target) #分類器的精確度
>>> scores.mean()
0.9... #得分比較理想
#

Methods

`decision_function`(X)	Compute the decision function of `X`.
`fit`(X, y[, sample_weight])	Build a boosted classifier from the training set (X, y).
`get_params`([deep])	Get parameters for this estimator.
`predict`(X)	Predict classes for X.
`predict_log_proba`(X)	Predict class log-probabilities for X.
`predict_proba`(X)	Predict class probabilities for X.
`score`(X, y[, sample_weight])	Returns the mean accuracy on the given test data and labels.
`set_params`(**params)	Set the parameters of this estimator.
`staged_decision_function`(X)	Compute decision function of `X` for each boosting iteration.
`staged_predict`(X)	Return staged predictions for X.
`staged_predict_proba`(X)	Predict class probabilities for X.
`staged_score`(X, y[, sample_weight])	Return staged scores for X, y.

　　　　首先我們載入需要的類庫：

import numpy as np import matplotlib.pyplot as plt %matplotlib inline from sklearn.ensemble import AdaBoostClassifier from sklearn.tree import DecisionTreeClassifier from sklearn.datasets import make_gaussian_quantiles

　　　　接着我們生成一些隨機數據來做二元分類，如果對如何產生隨機數據不熟悉，在另一篇文章機器學習算法的隨機數據生成中有比較詳細的介紹。

# 生成2維正態分布，生成的數據按分位數分為兩類，500個樣本,2個樣本特征，協方差系數為2 X1, y1 = make_gaussian_quantiles(cov=2.0,n_samples=500, n_features=2,n_classes=2, random_state=1) # 生成2維正態分布，生成的數據按分位數分為兩類，400個樣本,2個樣本特征均值都為3，協方差系數為2 X2, y2 = make_gaussian_quantiles(mean=(3, 3), cov=1.5,n_samples=400, n_features=2, n_classes=2, random_state=1) #講兩組數據合成一組數據 X = np.concatenate((X1, X2)) y = np.concatenate((y1, - y2 + 1))

　　　　我們通過可視化看看我們的分類數據，它有兩個特征，兩個輸出類別，用顏色區別。

          plt.scatter(X[:, 0], X[:, 1], marker= 
         'o', c=y)  
        

　　　　輸出為下圖：

　　　　可以看到數據有些混雜，我們現在用基於決策樹的Adaboost來做分類擬合。

          bdt = AdaBoostClassifier(DecisionTreeClassifier(max_depth=2, min_samples_split=20, min_samples_leaf=5 
         ), algorithm="SAMME", n_estimators=200, learning_rate=0.8) bdt.fit(X, y)  
        

　　　　這里我們選擇了SAMME算法，最多200個弱分類器，步長0.8，在實際運用中你可能需要通過交叉驗證調參而選擇最好的參數。擬合完了后，我們用網格圖來看看它擬合的區域。

x_min, x_max = X[:, 0].min() - 1, X[:, 0].max() + 1
y_min, y_max = X[:, 1].min() - 1, X[:, 1].max() + 1 xx, yy = np.meshgrid(np.arange(x_min, x_max, 0.02), np.arange(y_min, y_max, 0.02)) Z = bdt.predict(np.c_[xx.ravel(), yy.ravel()]) Z = Z.reshape(xx.shape) cs = plt.contourf(xx, yy, Z, cmap=plt.cm.Paired) plt.scatter(X[:, 0], X[:, 1], marker='o', c=y) plt.show()

　　　　輸出的圖如下：

　　　　從圖中可以看出，Adaboost的擬合效果還是不錯的，現在我們看看擬合分數：

 
         print "Score:", bdt.score(X,y)  
        

　　　　輸出為：

　　　　也就是說擬合訓練集數據的分數還不錯。當然分數高並不一定好，因為可能過擬合。

　　　　現在我們將最大弱分離器個數從200增加到300。再來看看擬合分數。

bdt = AdaBoostClassifier(DecisionTreeClassifier(max_depth=2, min_samples_split=20, min_samples_leaf=5),
                         algorithm="SAMME", n_estimators=300, learning_rate=0.8) bdt.fit(X, y) print "Score:", bdt.score(X,y)

　　　　此時的輸出為：

　　　　這印證了我們前面講的，弱分離器個數越多，則擬合程度越好，當然也越容易過擬合。

　　　　現在我們降低步長，將步長從上面的0.8減少到0.5，再來看看擬合分數。

bdt = AdaBoostClassifier(DecisionTreeClassifier(max_depth=2, min_samples_split=20, min_samples_leaf=5),
                         algorithm="SAMME", n_estimators=300, learning_rate=0.5) bdt.fit(X, y) print "Score:", bdt.score(X,y)

　　　　此時的輸出為：

　　　　可見在同樣的弱分類器的個數情況下，如果減少步長，擬合效果會下降。

　　　　最后我們看看當弱分類器個數為700，步長為0.7時候的情況：

bdt = AdaBoostClassifier(DecisionTreeClassifier(max_depth=2, min_samples_split=20, min_samples_leaf=5),
                         algorithm="SAMME", n_estimators=600, learning_rate=0.7) bdt.fit(X, y) print "Score:", bdt.score(X,y)

　　　　此時的輸出為：

　　　　此時的擬合分數和我們最初的300弱分類器，0.8步長的擬合程度相當。也就是說，在我們這個例子中，如果步長從0.8降到0.7，則弱分類器個數要從300增加到700才能達到類似的擬合效果。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 AdaBoostClassifier參數【實戰】ZooKeeper 實戰 Docker 實戰爬蟲實戰 LightGBM實戰 HAProxy實戰 openwaf實戰 ResNet實戰 Portainer實戰 Docker實戰