超參數調整實戰：scikit-learn配合XGBoost的競賽top20策略

本文轉載自查看原文 2020-03-26 15:22 745 機器學習/ 數據挖掘

快速學習如何為XGboost優化超參數！

在過去的幾年中，XGBoost被廣泛用於表格數據推斷，並且贏得了數百個挑戰。但是，僅僅通過XGBoost並不能完成完成整的解決方案，同樣的模型為什么有些人能獲得更好的准確性呢？除了經驗方面的差異，還有一個事實，那就是他們優化了超參數！
因此，我們今天將告訴您如何獲取特定數據集的最佳超參數。
我們將在Hacker Earth挑戰的數據集上使用scikit-learn配合XGBoost。
https://www.hackerearth.com/en-us/challenges/competitive/hackerearth-machine-learning-challenge-predict-defcon-level/problems/

以下我使用的全部代碼。我排除了分析部分和數據處理部分，因為這不是本文的目標。

#imported libsimport numpy as np import pandas as pd from xgboost import XGBClassifier import matplotlib.pyplot as plt from scipy import stats import seaborn as sns from sklearn.model_selection import train_test_split from sklearn.preprocessing import StandardScaler from sklearn.pipeline import Pipeline from sklearn.model_selection import RandomizedSearchCV, GridSearchCV import sys train = pd.read_csv("train.csv") X = train.drop(['DEFCON_Level','ID'],axis=1) y = train['DEFCON_Level'] X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42) #For classification #Random Search xgb_pipeline = Pipeline([('scaler', StandardScaler()), ('classifier',XGBClassifier())]) params = { 'min_child_weight': [1, 5, 10], 'gamma': [0.5, 1, 1.5, 2, 5], 'subsample': [0.6, 0.8, 1.0], 'colsample_bytree': [0.6, 0.8, 1.0], 'max_depth': [3, 4, 5] } random_search = RandomizedSearchCV(xgb_pipeline, param_distributions=params, n_iter=100, scoring='f1_weighted', n_jobs=4, verbose=3, random_state=1001 ) random_search.fit(X_train,y_train) #OR#Grid Search xgb_pipeline = Pipeline([('scaler', StandardScaler()), ('classifier',XGBClassifier())]) gbm_param_grid = { 'classifier__learning_rate': np.array([0.01,0.001]), 'classifier__n_estimators': np.array([100,200,300,400]), 'classifier__subsample': np.array([0.7,0.8,0.9]), 'classifier__max_depth': np.array([10,11,12,13,14,15,16,17]), 'classifier__lambda': np.array([1]), 'classifier__gamma': np.array([0]) #'classifier__colsample_bytree': np.arange(0,1.1,.2) } grid_search = GridSearchCV(estimator=xgb_pipeline, param_grid=gbm_param_grid, n_jobs= -1, scoring='f1_weighted', verbose=10) grid_search.fit(X_train,y_train) #Print out best parameters print(random_search.best_params_) print(grid_search.best_params_) #Print out scores on validation set print(random_search.score(X_test,y_test)) print(grid_search.score(X_test,y_test))

隨機搜索優化

讓我們分析一下隨機搜索的區塊：

#Random Search xgb_pipeline = Pipeline([('scaler', StandardScaler()), ('classifier',XGBClassifier())]) params = {'min_child_weight': [1, 5, 10], 'gamma': [0.5, 1, 1.5, 2, 5], 'subsample': [0.6, 0.8, 1.0], 'colsample_bytree': [0.6, 0.8, 1.0], 'max_depth': [3, 4, 5]}random_search = RandomizedSearchCV(xgb_pipeline, param_distributions=params, n_iter=100, scoring='f1_weighted', n_jobs=4, verbose=3, random_state=1001 )random_search.fit(X_train,y_train)

當我們使用XGBClassifier時，XGBRegressor的工作原理相同。您想搜索的參數在params中，可以簡單地添加要嘗試的值。

我們將f1_weighted作為指標，因為這是比賽中的要求。作業數量（n_jobs）基本上取決於是否要並行化計算。（如果有多個核心）

如前所述，這是一個隨機搜索，因此並不是所有的參數組合都將被試用，這有助於節省計算時間，並具有超參數的初步建議。

網格搜索優化

#Grid Search xgb_pipeline = Pipeline([('scaler', StandardScaler()), ('classifier',XGBClassifier())])gbm_param_grid = { 'classifier__learning_rate': np.array([0.01,0.001]), 'classifier__n_estimators': np.array([100,200,300,400]), 'classifier__subsample': np.array([0.7,0.8,0.9]), 'classifier__max_depth': np.array([10,11,12,13,14,15,16,17]), 'classifier__lambda': np.array([1]), 'classifier__gamma': np.array([0])}grid_search = GridSearchCV(estimator=xgb_pipeline, param_grid=gbm_param_grid, n_jobs= -1, scoring='f1_weighted', verbose=10) grid_search.fit(X_train,y_train)

跟上面一樣，可以更改XGBClassifier（）使其成為XGBRegressor（）。我們為變量n_jobs使用-1，以表明我們希望使用所有核進行計算。詳細部署以顯示分數和用於在訓練時獲取分數的參數。

結論

最后，只需打印以下最佳參數即可。

#Print out best parameters print(random_search.best_params_)print(grid_search.best_params_)#Print out scores on validation set print(random_search.score(X_test,y_test)) print(grid_search.score(X_test,y_test))

看看驗證集的分數！

就這樣，現在你知道如何優化XGBoost模型的超參數了。顯然，您也可以對模型執行此操作，例如隨機林、決策樹等。

原文地址：https://imba.deephub.ai/p/68e85b106f0111ea90cd05de3860c663

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 scikit-learn模型參數保存和多分類策略（one vs one和one vs rest）機器學習：SVM（scikit-learn 中的 RBF、RBF 中的超參數 γ） Scikit-Learn框架 scikit-learn點滴 scikit-learn 應用 scikit-learn scikit-learn 提升決策樹參數調節 scikit-learn網格搜索來進行高效的參數調優【scikit-learn】網格搜索來進行高效的參數調優 scikit-learn和tensorflow的區別