catboost原理以及Python代碼

本文轉載自查看原文 2018-09-23 20:41 8895 catboost/ python/ 機器學習

原論文：

http://learningsys.org/nips17/assets/papers/paper_11.pdf

catboost原理：

One-hot編碼可以在預處理階段或在訓練期間完成。后者對於訓練時間而言能更有效地執行，並在Catboost中執行。

類別特征：

為了減少過擬合以及使用整個數據集進行訓練，Catboost使用更有效的策略。

1、對輸入的觀察值的集合進行隨機排列，生成多個隨機排列；

2、給定一個序列，對於每個例子，對於相同類別的例子我們計算平均樣本值；

3、使用如下公式將所有的分類特征值轉換為數值：

讓，那么可以代替為

在這里，我們還增加了先驗值P和參數a>0，即為先驗的權重。添加先驗是一種常見的做法，它有助於減少從低頻類別獲得的噪聲。

特征組合：

在數據集中，組合的數量隨類別特征個數成指數型增長，在算法中不太可能考慮所有。在當前樹考慮新的拆分時，Catboost以貪婪的方式考慮組合。

1、第一次分裂不考慮任何組合在樹上；

2、對於下一次分類，在有所有類別特征的數據集的當前樹，Catboost包含了所有的組合和分類特征。組合值即被轉換為數字；

3、 Catboost還以以下方式生成數值和類別特征的組合:在樹中選擇的所有分裂視為具有兩個值的類別，並在組合中也類似使用。

python代碼：

import catboost

model = CatBoostClassifier(iterations=17000,

# depth = 6,

learning_rate = 0.03,

custom_loss='AUC',

eval_metric='AUC',

bagging_temperature=0.83,

od_type='Iter',

rsm = 0.78,

od_wait=150,

metric_period = 400,

l2_leaf_reg = 5,

thread_count = 20,

random_seed = 967

)

model.fit(tr_x, tr_y, eval_set=(te_x, te_y),use_best_model=True)

pre= model.predict_proba(te_x)[:,1].reshape((te_x.shape[0],1))

train[test_index]=pre

test_pre[i, :]= model.predict_proba(test_x)[:,1].reshape((test_x.shape[0],1))

print (roc_auc_score(te_y, pre))

cv_scores.append(roc_auc_score(te_y, pre))

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 catboost算法原理使用Python代碼實現Socket通信原理單鏈表反轉的原理和python代碼實現 k-means原理和python代碼實現 CatBoost算法梳理 win10專業版+Python3.7的CatBoost的GPU安裝&支持 -多處采坑小結 -提速40%+ 決策樹原理實例（python代碼實現）深度學習框架 CatBoost 介紹 AbstractQueuedSynchronizer原理及代碼分析 stacking算法原理及代碼