XGBoost的參數

XGBoost的作者把所有的參數分成了三類：
1、通用參數：宏觀函數控制。
2、Booster參數：控制每一步的booster(tree/regression)。
3、學習目標參數：控制訓練目標的表現。

---------------------- 分別介紹-----------------------

1. 通用參數

1.1、booster[默認gbtree]

選擇每次迭代的模型，有兩種選擇：
gbtree：基於樹的模型
gbliner：線性模型

1.2、silent[默認0]

當這個參數值為1時，靜默模式開啟，不會輸出任何信息。一般這個參數就保持默認的0，因為這樣能幫我們更好地理解模型。

1.3、nthread[默認值為最大可能的線程數]

這個參數用來進行多線程控制，應當輸入系統的核數。如果你希望使用CPU全部的核，那就不要輸入這個參數，算法會自動檢測它。
還有兩個參數，XGBoost會自動設置，目前你不用管它。接下來咱們一起看booster參數。

2. booster 參數（只介紹基於樹的booster 參數）

1、eta[默認0.3]

和GBM中的 learning rate 參數類似。通過減少每一步的權重，可以提高模型的魯棒性。典型值為0.01-0.2。

2、min_child_weight[默認1]

決定最小葉子節點樣本權重和。和GBM的 min_child_leaf 參數類似，但不完全一樣。XGBoost的這個參數是最小樣本權重的和，而GBM參數是最小樣本總數。這個參數用於避免過擬合。當它的值較大時，可以避免模型學習到局部的特殊樣本。但是如果這個值過高，會導致欠擬合。這個參數需要使用CV來調整。

3、max_depth[默認6]

和GBM中的參數相同，這個值為樹的最大深度。這個值也是用來避免過擬合的。max_depth越大，模型會學到更具體更局部的樣本。需要使用CV函數來進行調優。典型值：3-10

4、max_leaf_nodes

樹上最大的節點或葉子的數量。可以替代max_depth的作用。因為如果生成的是二叉樹，一個深度為n的樹最多生成

n2個葉子。如果定義了這個參數，GBM會忽略max_depth參數。

5、gamma[默認0]

在節點分裂時，只有分裂后損失函數的值下降了，才會分裂這個節點。Gamma指定了節點分裂所需的最小損失函數下降值。這個參數的值越大，算法越保守。這個參數的值和損失函數息息相關，所以是需要調整的。

6、max_delta_step[默認0]

這參數限制每棵樹權重改變的最大步長。如果這個參數的值為0，那就意味着沒有約束。如果它被賦予了某個正值，那么它會讓這個算法更加保守。通常，這個參數不需要設置。但是當各類別的樣本十分不平衡時，它對邏輯回歸是很有幫助的。這個參數一般用不到，但是你可以挖掘出來它更多的用處。

7、subsample[默認1]

和GBM中的subsample參數一模一樣。這個參數控制對於每棵樹，隨機采樣的比例。減小這個參數的值，算法會更加保守，避免過擬合。但是，如果這個值設置得過小，它可能會導致欠擬合。典型值：0.5-1

8、colsample_bytree[默認1]

和GBM里面的max_features參數類似。用來控制每棵隨機采樣的列數的占比(每一列是一個特征)。典型值：0.5-1

9、colsample_bylevel[默認1]

用來控制樹的每一級的每一次分裂，對列數的采樣的占比。我個人一般不太用這個參數，因為subsample參數和colsample_bytree參數可以起到相同的作用。但是如果感興趣，可以挖掘這個參數更多的用處。

10、lambda[默認1]

權重的L2正則化項。(和Ridge regression類似)。這個參數是用來控制XGBoost的正則化部分的。雖然大部分數據科學家很少用到這個參數，但是這個參數在減少過擬合上還是可以挖掘出更多用處的。

11、alpha[默認1]

權重的L1正則化項。(和Lasso regression類似)。可以應用在很高維度的情況下，使得算法的速度更快。

12、scale_pos_weight[默認1]

在各類別樣本十分不平衡時，把這個參數設定為一個正值，可以使算法更快收斂。

3. 學習目標參數

這個參數用來控制理想的優化目標和每一步結果的度量方法。

1、objective[默認reg:linear]

這個參數定義需要被最小化的損失函數。最常用的值有：
binary:logistic 二分類的邏輯回歸，返回預測的概率(不是類別)。 multi:softmax 使用softmax的多分類器，返回預測的類別(不是概率)。
在這種情況下，你還需要多設一個參數：num_class(類別數目)。 multi:softprob 和multi:softmax參數一樣，但是返回的是每個數據屬於各個類別的概率。

2、eval_metric[默認值取決於objective參數的取值]

對於有效數據的度量方法。對於回歸問題，默認值是rmse，對於分類問題，默認值是error。典型值有：
rmse 均方根誤差(

∑Ni=1?2N??????√) mae 平均絕對誤差(∑Ni=1|?|N) logloss 負對數似然函數值 error 二分類錯誤率(閾值為0.5) merror 多分類錯誤率 mlogloss 多分類logloss損失函數 auc 曲線下面積3、seed(默認0) 隨機數的種子設置它可以復現隨機數據的結果，也可以用於調整參數

如果你之前用的是Scikit-learn,你可能不太熟悉這些參數。但是有個好消息，python的XGBoost模塊有一個sklearn包，XGBClassifier。這個包中的參數是按sklearn風格命名的。會改變的函數名是：
1、eta ->learning_rate
2、lambda->reg_lambda
3、alpha->reg_alpha
你肯定在疑惑為啥咱們沒有介紹和GBM中的’n_estimators’類似的參數。XGBClassifier中確實有一個類似的參數，但是，是在標准XGBoost實現中調用擬合函數時，把它作為’num_boosting_rounds’參數傳入。

3、seed(默認0)

隨機數的種子設置它可以復現隨機數據的結果，也可以用於調整參數

參考文獻：

1. http://www.2cto.com/kf/201607/528771.html

2. https://www.analyticsvidhya.com/blog/2016/03/complete-guide-parameter-tuning-xgboost-with-codes-python/

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 xgboost參數及調參 xgboost&lightgbm調參指南隨機森林調參參考順序 xgboost的sklearn接口和原生接口參數詳細說明及調參指點 XGBoost參數調優 XGBoost模型的參數調優 GridSearchCV 與 RandomizedSearchCV 調參 fastText自動調參 gbdt調參過程 weblogic性能調優參考