XGB 調參基本方法

本文轉載自查看原文 2019-03-20 10:36 9337 機器學習/深度學習/ Python

- xgboost 基本方法和默認參數
- 實戰經驗中調參方法
- 基於實例具體分析

在訓練過程中主要用到兩個方法：xgboost.train()和xgboost.cv().

xgboost.train(params,dtrain,num_boost_round=10,evals=(),obj=None,feval=None,maximize=False,early_stopping_rounds=None,
evals_result=None,verbose_eval=True,learning_rates=None,xgb_model=None)

params 這是一個字典，里面包含着訓練中的參數關鍵字和對應的值，形式是params = {‘booster’:’gbtree’,’eta’:0.1}
dtrain 訓練的數據
evals 這是一個列表，用於對訓練過程中進行評估列表中的元素。形式是evals = [(dtrain,’train’),(dval,’val’)]或者是evals = [(dtrain,’train’)],對於第一種情況，它使得我們可以在訓練過程中觀察驗證集的效果。
obj,自定義目的函數
feval,自定義評估函數
early_stopping_rounds,早期停止次數，假設為100，驗證集的誤差迭代到一定程度在100次內不能再繼續降低，就停止迭代。這要求evals 里至少有一個元素，如果有多個，按最后一個去執行。返回的是最后的迭代次數（不是最好的）。如果early_stopping_rounds 存在，則模型會生成三個屬性，bst.best_score,bst.best_iteration,和bst.best_ntree_limit
evals_result 字典，存儲在watchlist 中的元素的評估結果。
verbose_eval (可以輸入布爾型或數值型)，也要求evals 里至少有一個元素。如果為True ,則對evals中元素的評估結果會輸出在結果中；如果輸入數字，假設為5，則每隔5個迭代輸出一次。
xgb_model ,在訓練之前用於加載的xgb model。

scale_pos_weight [默認 1]

在各類別樣本十分不平衡時，把這個參數設定為一個正值，可以使算法更快收斂。

max_delta_step[默認0]

這參數限制每棵樹權重改變的最大步長。如果這個參數的值為0，那就意味着沒有約束。如果它被賦予了某個正值，那么它會讓這個算法更加保守。
通常，這個參數不需要設置。但是當各類別的樣本十分不平衡時，它對邏輯回歸是很有幫助的。
這個參數一般用不到，但是你可以挖掘出來它更多的用處。

params = {
            'booster':'gbtree',
            'objective':'binary:logistic',
            'eta':0.1,
            'max_depth':10,
            'subsample':1.0,
            'min_child_weight':5,
            'colsample_bytree':0.2,
            'scale_pos_weight':0.1,
            'eval_metric':'auc',
            'gamma':0.2,            
            'lambda':300
}

colsample_bytree 要依據特征個數來判斷
objective 目標函數的選擇要根據問題確定，如果是回歸問題，一般是 reg:linear , reg:logistic , count:poisson 如果是分類問題，一般是binary:logistic ,rank:pairwise
參數初步定之后划分20%為驗證集，准備一個watchlist 給train和validation set ,設置num_round 足夠大（比如100000），以至於你能發現每一個round 的驗證集預測結果，如果在某一個round后 validation set 的預測誤差上升了，你就可以停止掉正在運行的程序了。

watchlist = [(dtrain,'train'),(dval,'val')]
model = xgb.train(params,dtrain,num_boost_round=100000,evals = watchlist)

然后開始逐個調參了。

1、首先調整max_depth ,通常max_depth 這個參數與其他參數關系不大，初始值設置為10，找到一個最好的誤差值，然后就可以調整參數與這個誤差值進行對比。比如調整到8，如果此時最好的誤差變高了，那么下次就調整到12；如果調整到12,誤差值比10 的低，那么下次可以嘗試調整到15.

2、在找到了最優的max_depth之后，可以開始調整subsample,初始值設置為1，然后調整到0.8 如果誤差值變高，下次就調整到0.9，如果還是變高，就保持為1.0
3、接着開始調整min_child_weight , 方法與上面同理
4、再接着調整colsample_bytree
5、經過上面的調整，已經得到了一組參數，這時調整eta 到0.05，然后讓程序運行來得到一個最佳的num_round,(在誤差值開始上升趨勢的時候為最佳 )

另外：

很幸運的是，Scikit-learn中提供了一個函數可以幫助我們更好地進行調參：

sklearn.model_selection.GridSearchCV

常用參數解讀：

estimator：所使用的分類器，如果比賽中使用的是XGBoost的話，就是生成的model。比如： model = xgb.XGBRegressor(**other_params)
param_grid：值為字典或者列表，即需要最優化的參數的取值。比如：cv_params = {‘n_estimators’: [550, 575, 600, 650, 675]}
scoring :准確度評價標准，默認None,這時需要使用score函數；或者如scoring=’roc_auc’，根據所選模型不同，評價准則不同。字符串（函數名），或是可調用對象，需要其函數簽名形如：scorer(estimator, X, y)；如果是None，則使用estimator的誤差估計函數。scoring參數選擇如下：

這次實戰我使用的是r2這個得分函數，當然大家也可以根據自己的實際需要來選擇。

調參剛開始的時候，一般要先初始化一些值：

learning_rate: 0.1
n_estimators: 500
max_depth: 5
min_child_weight: 1
subsample: 0.8
colsample_bytree:0.8
gamma: 0
reg_alpha: 0
reg_lambda: 1

你可以按照自己的實際情況來設置初始值，上面的也只是一些經驗之談吧。

調參的時候一般按照以下順序來進行：

1、最佳迭代次數：n_estimators

if __name__ == '__main__':
    trainFilePath = 'dataset/soccer/train.csv'
    testFilePath = 'dataset/soccer/test.csv'
    data = pd.read_csv(trainFilePath)
    X_train, y_train = featureSet(data)
    X_test = loadTestData(testFilePath)

    cv_params = {'n_estimators': [400, 500, 600, 700, 800]}
    other_params = {'learning_rate': 0.1, 'n_estimators': 500, 'max_depth': 5, 'min_child_weight': 1, 'seed': 0,
                    'subsample': 0.8, 'colsample_bytree': 0.8, 'gamma': 0, 'reg_alpha': 0, 'reg_lambda': 1}

    model = xgb.XGBRegressor(**other_params)
    optimized_GBM = GridSearchCV(estimator=model, param_grid=cv_params, scoring='r2', cv=5, verbose=1, n_jobs=4)
    optimized_GBM.fit(X_train, y_train)
    evalute_result = optimized_GBM.grid_scores_
    print('每輪迭代運行結果:{0}'.format(evalute_result))
    print('參數的最佳取值：{0}'.format(optimized_GBM.best_params_))
    print('最佳模型得分:{0}'.format(optimized_GBM.best_score_))

寫到這里，需要提醒大家，在代碼中有一處很關鍵：

model = xgb.XGBRegressor(**other_params)中兩個*號千萬不能省略！可能很多人不注意，再加上網上很多教程估計是從別人那里直接拷貝，沒有運行結果，所以直接就用了model = xgb.XGBRegressor(other_params)。悲劇的是，如果直接這樣運行的話，會報如下錯誤：

xgboost.core.XGBoostError: b"Invalid Parameter format for max_depth expect int but value...

不信，請看鏈接：xgboost issue

以上是血的教訓啊，自己不運行一遍代碼，永遠不知道會出現什么Bug！

運行后的結果為：

[Parallel(n_jobs=4)]: Done  25 out of  25 | elapsed:  1.5min finished
每輪迭代運行結果:[mean: 0.94051, std: 0.01244, params: {'n_estimators': 400}, mean: 0.94057, std: 0.01244, params: {'n_estimators': 500}, mean: 0.94061, std: 0.01230, params: {'n_estimators': 600}, mean: 0.94060, std: 0.01223, params: {'n_estimators': 700}, mean: 0.94058, std: 0.01231, params: {'n_estimators': 800}]
參數的最佳取值：{'n_estimators': 600}
最佳模型得分:0.9406056804545407

由輸出結果可知最佳迭代次數為600次。但是，我們還不能認為這是最終的結果，由於設置的間隔太大，所以，我又測試了一組參數，這次粒度小一些：

cv_params = {'n_estimators': [550, 575, 600, 650, 675]}
other_params = {'learning_rate': 0.1, 'n_estimators': 600, 'max_depth': 5, 'min_child_weight': 1, 'seed': 0,
'subsample': 0.8, 'colsample_bytree': 0.8, 'gamma': 0, 'reg_alpha': 0, 'reg_lambda': 1}

運行后的結果為：

每輪迭代運行結果:[mean: 0.94065, std: 0.01237, params: {'n_estimators': 550}, mean: 0.94064, std: 0.01234, params: {'n_estimators': 575}, mean: 0.94061, std: 0.01230, params: {'n_estimators': 600}, mean: 0.94060, std: 0.01226, params: {'n_estimators': 650}, mean: 0.94060, std: 0.01224, params: {'n_estimators': 675}]
參數的最佳取值：{'n_estimators': 550}
最佳模型得分:0.9406545392685364

果不其然，最佳迭代次數變成了550。有人可能會問，那還要不要繼續縮小粒度測試下去呢？

這個我覺得可以看個人情況，如果你想要更高的精度，當然是粒度越小，結果越准確，大家可以自己慢慢去調試，我在這里就不一一去做了。

2、接下來要調試的參數是min_child_weight以及max_depth：

注意：每次調完一個參數，要把 other_params對應的參數更新為最優值。

cv_params = {'max_depth': [3, 4, 5, 6, 7, 8, 9, 10], 'min_child_weight': [1, 2, 3, 4, 5, 6]}
other_params = {'learning_rate': 0.1, 'n_estimators': 550, 'max_depth': 5, 'min_child_weight': 1, 'seed': 0,
'subsample': 0.8, 'colsample_bytree': 0.8, 'gamma': 0, 'reg_alpha': 0, 'reg_lambda': 1}

運行后的結果為：

[Parallel(n_jobs=4)]: Done 42 tasks | elapsed: 1.7min
[Parallel(n_jobs=4)]: Done 192 tasks | elapsed: 12.3min
[Parallel(n_jobs=4)]: Done 240 out of 240 | elapsed: 17.2min finished
每輪迭代運行結果:[mean: 0.93967, std: 0.01334, params: {'min_child_weight': 1, 'max_depth': 3}, mean: 0.93826, std: 0.01202, params: {'min_child_weight': 2, 'max_depth': 3}, mean: 0.93739, std: 0.01265, params: {'min_child_weight': 3, 'max_depth': 3}, mean: 0.93827, std: 0.01285, params: {'min_child_weight': 4, 'max_depth': 3}, mean: 0.93680, std: 0.01219, params: {'min_child_weight': 5, 'max_depth': 3}, mean: 0.93640, std: 0.01231, params: {'min_child_weight': 6, 'max_depth': 3}, mean: 0.94277, std: 0.01395, params: {'min_child_weight': 1, 'max_depth': 4}, mean: 0.94261, std: 0.01173, params: {'min_child_weight': 2, 'max_depth': 4}, mean: 0.94276, std: 0.01329...]
參數的最佳取值：{'min_child_weight': 5, 'max_depth': 4}
最佳模型得分:0.94369522247392
由輸出結果可知參數的最佳取值：{'min_child_weight': 5, 'max_depth': 4}。（代碼輸出結果被我省略了一部分，因為結果太長了，以下也是如此）

3、接着我們就開始調試參數：gamma：

cv_params = {'gamma': [0.1, 0.2, 0.3, 0.4, 0.5, 0.6]}
other_params = {'learning_rate': 0.1, 'n_estimators': 550, 'max_depth': 4, 'min_child_weight': 5, 'seed': 0,
'subsample': 0.8, 'colsample_bytree': 0.8, 'gamma': 0, 'reg_alpha': 0, 'reg_lambda': 1}

[Parallel(n_jobs=4)]: Done 30 out of 30 | elapsed: 1.5min finished
每輪迭代運行結果:[mean: 0.94370, std: 0.01010, params: {'gamma': 0.1}, mean: 0.94370, std: 0.01010, params: {'gamma': 0.2}, mean: 0.94370, std: 0.01010, params: {'gamma': 0.3}, mean: 0.94370, std: 0.01010, params: {'gamma': 0.4}, mean: 0.94370, std: 0.01010, params: {'gamma': 0.5}, mean: 0.94370, std: 0.01010, params: {'gamma': 0.6}]
參數的最佳取值：{'gamma': 0.1}
最佳模型得分:0.94369522247392
由輸出結果可知參數的最佳取值：{'gamma': 0.1}。

4、接着是subsample以及colsample_bytree：

cv_params = {'subsample': [0.6, 0.7, 0.8, 0.9], 'colsample_bytree': [0.6, 0.7, 0.8, 0.9]}
other_params = {'learning_rate': 0.1, 'n_estimators': 550, 'max_depth': 4, 'min_child_weight': 5, 'seed': 0,
'subsample': 0.8, 'colsample_bytree': 0.8, 'gamma': 0.1, 'reg_alpha': 0, 'reg_lambda': 1}

運行后的結果顯示參數的最佳取值：{'subsample': 0.7,'colsample_bytree': 0.7}

5、緊接着就是：reg_alpha以及reg_lambda：

cv_params = {'reg_alpha': [0.05, 0.1, 1, 2, 3], 'reg_lambda': [0.05, 0.1, 1, 2, 3]}
other_params = {'learning_rate': 0.1, 'n_estimators': 550, 'max_depth': 4, 'min_child_weight': 5, 'seed': 0,
'subsample': 0.7, 'colsample_bytree': 0.7, 'gamma': 0.1, 'reg_alpha': 0, 'reg_lambda': 1}

運行后的結果為：

[Parallel(n_jobs=4)]: Done 42 tasks | elapsed: 2.0min
[Parallel(n_jobs=4)]: Done 125 out of 125 | elapsed: 5.6min finished
每輪迭代運行結果:[mean: 0.94169, std: 0.00997, params: {'reg_alpha': 0.01, 'reg_lambda': 0.01}, mean: 0.94112, std: 0.01086, params: {'reg_alpha': 0.01, 'reg_lambda': 0.05}, mean: 0.94153, std: 0.01093, params: {'reg_alpha': 0.01, 'reg_lambda': 0.1}, mean: 0.94400, std: 0.01090, params: {'reg_alpha': 0.01, 'reg_lambda': 1}, mean: 0.93820, std: 0.01177, params: {'reg_alpha': 0.01, 'reg_lambda': 100}, mean: 0.94194, std: 0.00936, params: {'reg_alpha': 0.05, 'reg_lambda': 0.01}, mean: 0.94136, std: 0.01122, params: {'reg_alpha': 0.05, 'reg_lambda': 0.05}, mean: 0.94164, std: 0.01120...]
參數的最佳取值：{'reg_alpha': 1, 'reg_lambda': 1}
最佳模型得分:0.9441561344357595

由輸出結果可知參數的最佳取值：{'reg_alpha': 1, 'reg_lambda': 1}。

6、最后就是learning_rate，一般這時候要調小學習率來測試：

cv_params = {'learning_rate': [0.01, 0.05, 0.07, 0.1, 0.2]}
other_params = {'learning_rate': 0.1, 'n_estimators': 550, 'max_depth': 4, 'min_child_weight': 5, 'seed': 0,
'subsample': 0.7, 'colsample_bytree': 0.7, 'gamma': 0.1, 'reg_alpha': 1, 'reg_lambda': 1}

運行后的結果為：

[Parallel(n_jobs=4)]: Done 25 out of 25 | elapsed: 1.1min finished
每輪迭代運行結果:[mean: 0.93675, std: 0.01080, params: {'learning_rate': 0.01}, mean: 0.94229, std: 0.01138, params: {'learning_rate': 0.05}, mean: 0.94110, std: 0.01066, params: {'learning_rate': 0.07}, mean: 0.94416, std: 0.01037, params: {'learning_rate': 0.1}, mean: 0.93985, std: 0.01109, params: {'learning_rate': 0.2}]
參數的最佳取值：{'learning_rate': 0.1}
最佳模型得分:0.9441561344357595

由輸出結果可知參數的最佳取值：{'learning_rate': 0.1}。

我們可以很清楚地看到，隨着參數的調優，最佳模型得分是不斷提高的，這也從另一方面驗證了調優確實是起到了一定的作用。不過，我們也可以注意到，其實最佳分數並沒有提升太多。提醒一點，這個分數是根據前面設置的得分函數算出來的，即：

optimized_GBM = GridSearchCV(estimator=model, param_grid=cv_params, scoring='r2', cv=5, verbose=1, n_jobs=4)
1
中的scoring='r2'。在實際情境中，我們可能需要利用各種不同的得分函數來評判模型的好壞。

最后，我們把得到的最佳參數組合扔到模型里訓練，就可以得到預測的結果了：

def trainandTest(X_train, y_train, X_test):
    # XGBoost訓練過程，下面的參數就是剛才調試出來的最佳參數組合
    model = xgb.XGBRegressor(learning_rate=0.1, n_estimators=550, max_depth=4, min_child_weight=5, seed=0,
                             subsample=0.7, colsample_bytree=0.7, gamma=0.1, reg_alpha=1, reg_lambda=1)
    model.fit(X_train, y_train)

    # 對測試集進行預測
    ans = model.predict(X_test)

    ans_len = len(ans)
    id_list = np.arange(10441, 17441)
    data_arr = []
    for row in range(0, ans_len):
        data_arr.append([int(id_list[row]), ans[row]])
    np_data = np.array(data_arr)

    # 寫入文件
    pd_data = pd.DataFrame(np_data, columns=['id', 'y'])
    # print(pd_data)
    pd_data.to_csv('submit.csv', index=None)

    # 顯示重要特征
    # plot_importance(model)
    # plt.show()

好了，調參的過程到這里就基本結束了。正如我在上面提到的一樣，其實調參對於模型准確率的提高有一定的幫助，但這是有限的。

最重要的還是要通過數據清洗，特征選擇，特征融合，模型融合等手段來進行改進！

原文：https://blog.csdn.net/sinat_35512245/article/details/79700029

參考文獻

https://www.kaggle.com/c/bnp-paribas-cardif-claims-management/forums/t/19083/best-practices-for-parameter-tuning-on-models
https://github.com/dmlc/xgboost/tree/master/demo
http://xgboost.readthedocs.io/en/latest/python/python_api.html

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 xgb調參 xgb lgb 調參 Python中Gradient Boosting Machine(GBM）調參方法詳解如何進行調參 xgboost 調參 catboost調參 GridSearchCV和RandomizedSearchCV調參 keras調參經驗 lgb參數及調參 RandomForest 調參