Bayesian Optimization使用Hyperopt進行參數調優

本文轉載自查看原文 2019-09-15 13:00 424 Bayesian Optimization/ 機器學習/ 深度學習/ Hyperopt

超參數優化

Bayesian Optimization使用Hyperopt進行參數調優

1. 前言

本文將介紹一種快速有效的方法用於實現機器學習模型的調參。有兩種常用的調參方法：網格搜索和隨機搜索。每一種都有自己的優點和缺點。網格搜索速度慢，但在搜索整個搜索空間方面效果很好，而隨機搜索很快，但可能會錯過搜索空間中的重要點。幸運的是，還有第三種選擇：貝葉斯優化。本文我們將重點介紹貝葉斯優化的一個實現，一個名為hyperopt的Python模塊。

使用貝葉斯優化進行調參可以讓我們獲得給定模型的最佳參數，例如邏輯回歸模型。這也使我們能夠執行最佳的模型選擇。通常機器學習工程師或數據科學家將為少數模型（如決策樹，支持向量機和K近鄰）執行某種形式（網格搜索或隨機搜索）的手動調參，然后比較准確率並選擇最佳的一個來使用。該方法可能比較的是次優模型。也許數據科學家找到了決策樹的最優參數，但卻錯過了SVM的最優參數。這意味着他們的模型比較是有缺陷的。如果SVM參數調整得很差，K 近鄰可能每次都會擊敗SVM。貝葉斯優化允許數據科學家找到所有模型的最佳參數，並因此比較最佳模型。這會得到更好的模型選擇，因為你比較的是最佳的k近鄰和最佳的決策樹。只有這樣你才能非常自信地進行模型選擇，確保選擇並使用的是實際最佳的模型。

本文涵蓋的主題有：

目標函數
搜索空間
存儲評估試驗
可視化
經典數據集上的完整示例：Iris

2. 目標函數 - 一個啟發性例子

假設你有一個定義在某個范圍內的函數，並且想把它最小化。也就是說，你想找到產生最低輸出值的輸入值。下面的簡單例子找到\(x\)的值用於最小化線性函數\(y(x)=x\)

from hyperopt import fmin, tpe, hp
best = fmin(
    fn=lambda x: x,
    space=hp.uniform('x', 0, 1),
    algo=tpe.suggest,
    max_evals=100)
print(best)

輸出結果：

{'x': 0.000269455723739237}

\(fmin\)首先接受一個函數來最小化，記為\(fn\)，在這里用一個匿名函數\(lambda \ x:x\)來指定。該函數可以是任何有效的值返回函數，例如回歸中的平均絕對誤差。
\(space\)是指定搜索空間，在本例中，它是0到1之間的連續數字范圍，\(hp.uniform('x', 0, 1)\)指定。\(hp.uniform\)是一個內置的hyperopt函數，它有三個參數：名稱\(x\)，范圍的下限和上限0和1。
\(algo\)參數指定搜索算法，本例中tpe表示tree of Parzen estimators。該主題超出了本文的范圍，但有數學背景的讀者可以細讀這篇文章。algo參數也可以設置為\(hyperopt.random\)，但是這里我們沒有涉及，因為它是眾所周知的搜索策略。但在未來的文章中我們可能會涉及。
最后\(max\_evals\)是最大評估次數。這個fmin函數將返回一個python字典。

2.1 稍微復雜的例子

這有一個更復雜的目標函數：
\(lambda\ x: (x-1)^2\)。這次我們試圖最小化一個二次方程\(y(x)=(x-1)^2\)。所以我們改變搜索空間以包括我們已知的最優值\((x=1)\)加上兩邊的一些次優范圍：\(hp.uniform('x', -2, 2)\)。

best = fmin(
    fn=lambda x: (x-1)**2,
    space=hp.uniform('x', -2, 2),
    algo=tpe.suggest,
    max_evals=100)
print(best)

輸出結果：

{'x': 0.997369045274755}

3. 搜索空間

hyperopt模塊包含一些方便的函數來指定輸入參數的范圍。我們已經見過\(hp.uniform\)。最初，這些是隨機搜索空間，但隨着hyperopt更多的學習（因為它從目標函數獲得更多反饋），通過它認為提供給它最有意義的反饋，會調整並采樣初始搜索空間的不同部分。

以下內容將在本文中使用：

\(hp.choice(label, options)\)其中options應是python列表或元組。
\(hp.normal(label, mu, sigma)\)其中mu和sigma分別是均值和標准差。
\(hp.uniform(label, low, high)\)其中low和high是范圍的下限和上限。

import hyperopt.pyll.stochastic

space = {
    'x': hp.uniform('x', 0, 1),
    'y': hp.normal('y', 0, 1),
    'name': hp.choice('name', ['alice', 'bob']),
}

print(hyperopt.pyll.stochastic.sample(space))

輸出結果：

{'y': -1.4012610048810574, 'x': 0.7258615424906184, 'name': 'alice'}

4. Trials捕獲信息

如果能看到hyperopt黑匣子內發生了什么是極好的。Trials對象使我們能夠做到這一點。我們只需要導入一些東西。

from hyperopt import fmin, tpe, hp, STATUS_OK, Trials

fspace = {
    'x': hp.uniform('x', -5, 5)
}

def f(params):
    x = params['x']
    val = x**2
    return {'loss': val, 'status': STATUS_OK}

trials = Trials()
    best = fmin(fn=f, space=fspace, algo=tpe.suggest, max_evals=50, trials=trials)

print('best:', best)

print 'trials:'
for trial in trials.trials[:2]:
    print(trial)

\(STATUS_OK\)和Trials是新導入的。Trials對象允許我們在每個時間步存儲信息。然后我們可以將它們打印出來，並在給定的時間步查看給定參數的函數評估值。

輸出結果：

best: {'x': 0.014420181637303776}
trials:
{'refresh_time': None, 'book_time': None, 'misc': {'tid': 0, 'idxs': {'x': [0]}, 'cmd': ('domain_attachment', 'FMinIter_Domain'), 'vals': {'x': [1.9646918559786162]}, 'workdir': None}, 'state': 2, 'tid': 0, 'exp_key': None, 'version': 0, 'result': {'status': 'ok', 'loss': 3.8600140889486996}, 'owner': None, 'spec': None}
{'refresh_time': None, 'book_time': None, 'misc': {'tid': 1, 'idxs': {'x': [1]}, 'cmd': ('domain_attachment', 'FMinIter_Domain'), 'vals': {'x': [-3.9393509404526728]}, 'workdir': None}, 'state': 2, 'tid': 1, 'exp_key': None, 'version': 0, 'result': {'status': 'ok', 'loss': 15.518485832045357}, 'owner': None, 'spec': None}

Trials對象將數據存儲為BSON對象，其工作方式與JSON對象相同。BSON來自pymongo模塊。我們不會在這里討論細節，這是對於需要使用MongoDB進行分布式計算的hyperopt的高級選項，因此需要導入pymongo。回到上面的輸出。

tid是時間 id，即時間步，其值從0到\(max\_evals-1\)。它隨着迭代次數遞增。
\('x'\)是鍵\('vals'\)的值，其中存儲的是每次迭代參數的值。
\('loss'\)是鍵\('result'\)的值，其給出了該次迭代目標函數的值。

4.1 可視化

我們看看損失vs值的圖

f, ax = plt.subplots(1)
xs = [t['misc']['vals']['x'] for t in trials.trials]
ys = [t['result']['loss'] for t in trials.trials]
ax.scatter(xs, ys, s=20, linewidth=0.01, alpha=0.75)
ax.set_title('$val$ $vs$ $x$ ', fontsize=18)
ax.set_xlabel('$x$', fontsize=16)
ax.set_ylabel('$val$', fontsize=16)

5. Iris 數據集

在本節中，我們將介紹4個使用hyperopt在經典數據集Iris上調參的完整示例。我們將涵蓋K近鄰（KNN），支持向量機（SVM），決策樹和隨機森林。需要注意的是，由於我們試圖最大化交叉驗證的准確率（acc請參見下面的代碼），而hyperopt只知道如何最小化函數，所以必須對准確率取負。最小化函數f與最大化f的負數是相等的。

對於這項任務，我們將使用經典的Iris數據集，並進行一些有監督的機器學習。數據集有有4個輸入特征和3個輸出類別。數據被標記為屬於類別0，1或2，其映射到不同種類的鳶尾花。輸入有4列：萼片長度，萼片寬度，花瓣長度和花瓣寬度。輸入的單位是厘米。我們將使用這4個特征來學習模型，預測三種輸出類別之一。因為數據由sklearn提供，它有一個很好的DESCR屬性，可以提供有關數據集的詳細信息。嘗試以下代碼以獲得更多細節信息。

5.1 K近鄰

我們現在將使用hyperopt來找到K近鄰（KNN）機器學習模型的最佳參數。KNN模型是基於訓練數據集中k個最近數據點的大多數類別對來自測試集的數據點進行分類。下面的代碼結合了我們所涵蓋的一切。

from sklearn import datasets
iris = datasets.load_iris()
X = iris.data
y = iris.target

def hyperopt_train_test(params):
    clf = KNeighborsClassifier(**params)
    return cross_val_score(clf, X, y).mean()

space4knn = {
    'n_neighbors': hp.choice('n_neighbors', range(1,100))
}

def f(params):
    acc = hyperopt_train_test(params)
    return {'loss': -acc, 'status': STATUS_OK}

trials = Trials()
best = fmin(f, space4knn, algo=tpe.suggest, max_evals=100, trials=trials)
print('best:',best)

現在讓我們看看輸出結果的圖。y軸是交叉驗證分數，x軸是k近鄰個數。下面是代碼和它的圖像：

f, ax = plt.subplots(1)#, figsize=(10,10))
xs = [t['misc']['vals']['n'] for t in trials.trials]
ys = [-t['result']['loss'] for t in trials.trials]
ax.scatter(xs, ys, s=20, linewidth=0.01, alpha=0.5)
ax.set_title('Iris Dataset - KNN', fontsize=18)
ax.set_xlabel('n_neighbors', fontsize=12)
ax.set_ylabel('cross validation accuracy', fontsize=12)

k 大於63后，准確率急劇下降。這是因為數據集中每個類的數量。這三個類中每個類只有50個實例。所以讓我們將\('n\_neighbors'\)的值限制為較小的值來進一步探索。

from sklearn import datasets
iris = datasets.load_iris()
X = iris.data
y = iris.target

def hyperopt_train_test(params):
    clf = KNeighborsClassifier(**params)
    return cross_val_score(clf, X, y).mean()

space4knn = {
    'n_neighbors': hp.choice('n_neighbors', range(1,50))
}

def f(params):
    acc = hyperopt_train_test(params)
    return {'loss': -acc, 'status': STATUS_OK}

trials = Trials()
best = fmin(f, space4knn, algo=tpe.suggest, max_evals=100, trials=trials)
print('best:',best)

現在我們可以清楚地看到k有一個最佳值，k=4。

上面的模型沒有做任何預處理。所以我們來歸一化和縮放特征，看看是否有幫助。用如下代碼：

# now with scaling as an option
from sklearn import datasets
iris = datasets.load_iris()
X = iris.data
y = iris.target

def hyperopt_train_test(params):
    X_ = X[:]

    if 'normalize' in params:
        if params['normalize'] == 1:
            X_ = normalize(X_)
            del params['normalize']

    if 'scale' in params:
        if params['scale'] == 1:
            X_ = scale(X_)
            del params['scale']

    clf = KNeighborsClassifier(**params)
    return cross_val_score(clf, X_, y).mean()

space4knn = {
    'n_neighbors': hp.choice('n_neighbors', range(1,50)),
    'scale': hp.choice('scale', [0, 1]),
    'normalize': hp.choice('normalize', [0, 1])
}

def f(params):
    acc = hyperopt_train_test(params)
    return {'loss': -acc, 'status': STATUS_OK}

trials = Trials()
best = fmin(f, space4knn, algo=tpe.suggest, max_evals=100, trials=trials)
print('best:',best)

並像這樣繪制參數：

parameters = ['n_neighbors', 'scale', 'normalize']
cols = len(parameters)
f, axes = plt.subplots(nrows=1, ncols=cols, figsize=(15,5))
cmap = plt.cm.jet
for i, val in enumerate(parameters):
    xs = np.array([t['misc']['vals'][val] for t in trials.trials]).ravel()
    ys = [-t['result']['loss'] for t in trials.trials]
    xs, ys = zip(\*sorted(zip(xs, ys)))
    ys = np.array(ys)
    axes[i].scatter(xs, ys, s=20, linewidth=0.01, alpha=0.75, c=cmap(float(i)/len(parameters)))
    axes[i].set_title(val)

我們看到縮放和/或歸一化數據並不會提高預測准確率。k的最佳值仍然為4，這得到98.6％的准確率。

所以這對於簡單模型 KNN 調參很有用。讓我們看看用支持向量機（SVM）能做什么。

5.2 支持向量機（SVM）

由於這是一個分類任務，我們將使用sklearn的SVC類。代碼如下：

iris = datasets.load_iris()
X = iris.data
y = iris.target

def hyperopt_train_test(params):
    X_ = X[:]

    if 'normalize' in params:
        if params['normalize'] == 1:
            X_ = normalize(X_)
            del params['normalize']

    if 'scale' in params:
        if params['scale'] == 1:
            X_ = scale(X_)
            del params['scale']

    clf = SVC(**params)
    return cross_val_score(clf, X_, y).mean()

space4svm = {
    'C': hp.uniform('C', 0, 20),
    'kernel': hp.choice('kernel', ['linear', 'sigmoid', 'poly', 'rbf']),
    'gamma': hp.uniform('gamma', 0, 20),
    'scale': hp.choice('scale', [0, 1]),
    'normalize': hp.choice('normalize', [0, 1])
}

def f(params):
    acc = hyperopt_train_test(params)
    return {'loss': -acc, 'status': STATUS_OK}

trials = Trials()
best = fmin(f, space4svm, algo=tpe.suggest, max_evals=100, trials=trials)
print('best:',best)

parameters = ['C', 'kernel', 'gamma', 'scale', 'normalize']
cols = len(parameters)
f, axes = plt.subplots(nrows=1, ncols=cols, figsize=(20,5))
cmap = plt.cm.jet
for i, val in enumerate(parameters):
    xs = np.array([t['misc']['vals'][val] for t in trials.trials]).ravel()
    ys = [-t['result']['loss'] for t in trials.trials]
    xs, ys = zip(\*sorted(zip(xs, ys)))
    axes[i].scatter(xs, ys, s=20, linewidth=0.01, alpha=0.25, c=cmap(float(i)/len(parameters)))
    axes[i].set_title(val)
    axes[i].set_ylim([0.9, 1.0])

我們得到結果：

同樣，縮放和歸一化也沒有幫助。核函數的首選是（linear），C的最佳值是1.4168540399911616，gamma的最佳值是15.04230279483486。這組參數得到了99.3％的分類准確率。

5.3 是時候把所有東西合為一體了

自動調整一個模型的參數（如SVM或KNN）非常有趣並且具有啟發性，但同時調整它們並取得全局最佳模型則更有用。這使我們能夠一次比較所有參數和所有模型，因此為我們提供了最佳模型。代碼如下：

digits = datasets.load_digits()
X = digits.data
y = digits.target
print X.shape, y.shape

def hyperopt_train_test(params):
    t = params['type']
    del params['type']
    if t == 'naive_bayes':
        clf = BernoulliNB(**params)
    elif t == 'svm':
        clf = SVC(**params)
    elif t == 'dtree':
        clf = DecisionTreeClassifier(**params)
    elif t == 'knn':
        clf = KNeighborsClassifier(**params)
    else:
        return 0
    return cross_val_score(clf, X, y).mean()

space = hp.choice('classifier_type', [
    {
        'type': 'naive_bayes',
        'alpha': hp.uniform('alpha', 0.0, 2.0)
    },
    {
        'type': 'svm',
        'C': hp.uniform('C', 0, 10.0),
        'kernel': hp.choice('kernel', ['linear', 'rbf']),
        'gamma': hp.uniform('gamma', 0, 20.0)
    },
    {
        'type': 'randomforest',
        'max_depth': hp.choice('max_depth', range(1,20)),
        'max_features': hp.choice('max_features', range(1,5)),
        'n_estimators': hp.choice('n_estimators', range(1,20)),
        'criterion': hp.choice('criterion', ["gini", "entropy"]),
        'scale': hp.choice('scale', [0, 1]),
        'normalize': hp.choice('normalize', [0, 1])
    },
    {
        'type': 'knn',
        'n_neighbors': hp.choice('knn_n_neighbors', range(1,50))
    }
])

count = 0
best = 0
def f(params):
    global best, count
    count += 1
    acc = hyperopt_train_test(params.copy())
    if acc > best:
        print 'new best:', acc, 'using', params['type']
        best = acc
    if count % 50 == 0:
        print 'iters:', count, ', acc:', acc, 'using', params
    return {'loss': -acc, 'status': STATUS_OK}

trials = Trials()
best = fmin(f, space, algo=tpe.suggest, max_evals=1500, trials=trials)
print('best:',best)

由於我們增加了評估數量，此代碼需要一段時間才能運行完：\(max\_evals=1500\)。當找到新的最佳准確率時，它還會添加到輸出用於更新。好奇為什么使用這種方法沒有找到前面的最佳模型：參數為kernel=linear，C=1.416，gamma=15.042的SVM。

6. 總結

我們已經介紹了簡單的例子，如最小化確定的線性函數，以及復雜的例子，如調整SVM的參數。后面讀者需要根據自己的需求再去調整選擇的參數，也可以基於深度學習模型進行調參。

轉載至https://www.jianshu.com/p/35eed1567463

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 golang 使用pprof進行性能調優【轉】Windows下使用libsvm中的grid.py和easy.py進行參數調優利用Kubernetes和Helm進行高效的超參數調優 scikit-learn網格搜索來進行高效的參數調優【scikit-learn】網格搜索來進行高效的參數調優超參數調優 linux 參數調優 Hadoop參數調優 MapReduce參數調優【JVM參數調優】