xgboost安裝與原理

本文轉載自查看原文 2018-07-10 15:35 1928

1、xgboost庫的安裝

先在網址https://www.lfd.uci.edu/~gohlke/pythonlibs/#xgboost 中下載whl文件，注意一定要下載跟自己當前安裝Python版本一致的whl文件

比如我是Python3.6，64位操作系統，所以要安裝xgboost-0.72-cp36-cp36m-win_amd64.whl。

然后將它放到conda文件夾下，用anaconda prompt切換到該路徑下，使用pip install xgboost-0.72-cp36-cp36m-win_amd64.whl安裝文件就可以了。

2、原理說明

說明：監督學習與非監督學習

監督學習是根據帶標簽的數據進行數據學習。所謂監督學習，就是兩步，一是定出模型確定參數，二是根據訓練數據找出最佳的參數值，所謂最佳，從應用角度看，就是最大程度地吸收了10萬條訓練數據中的知識。

如何尋找最佳參數？

確定目標函數，根據目標函數的值確定預測模型的好壞，但是存在的問題是：1）預測樣本中有錯誤值；2）樣本中可能含有極端值。比如說我們對60歲以上年紀的人的數據預測模型去預測6歲孩子的數據，結果自然是不具有參考性的。那么，如何使得參數最優呢？

那就是正則化。

所謂正則化就是對參數施加一定的控制，防止參數走向極端。以上面的例子來說，假如10萬條數據中，得癌症的病人都是60歲以上老人，沒得癌症的病人都是30歲以下年輕人，檢查結果中有一項是骨質密度，通常，老人骨質密度低，年輕人骨質密度高。那么我們學習到的模型很可能是這樣的，對骨質密度這項對應的參數θ_j設的非常大，其他的參數都非常小，簡單講，模型傾向於就用這一項檢查結果去判斷病人是否得癌症，因為這樣會讓目標函數最小。

常用的正則化就是L2正則，也就是所有參數的平方和。我們希望這個和盡可能小的同時，模型對訓練數據有盡可能好的預測。

最后，我們將L2正則項加到最初的目標函數上，就得出了最終的目標函數：
obj = ∑_i(sigmoid(∑_j θ_j*x_ij) - y_i)^2 + ∑_j(θ_j^2)

能使這個函數值最小的那組參數就是我們要找的最佳參數。這個obj包含的兩項分別稱為損失函數和正則項。
這里的正則項，本質上是用來控制模型的復雜度。

Xgboost就是一個監督模型，可以用於分類和回歸，其結構就是一堆CART樹，即將每棵樹的預測值加到一起作為最終的預測值，可謂簡單粗暴。

CART樹與決策樹的區別：CART可以用於分類和回歸。https://blog.csdn.net/lzzdflg/article/details/78649925

CART是在給定輸入隨機變量X條件下輸出隨機變量Y的條件概率分布，與ID3和C4.5的決策樹所不同的是， ID3和C4.5生成的決策樹可以是多叉的，每個節點下的叉樹由該節點特征的取值種類而定，比如特征年齡分為（青年，中年，老年），那么改節點下可分為3叉。而CART為假設決策樹為二叉樹，內部結點特征取值為”是”和”否”。左分支取值為”是”，有分支取值為”否”。這樣的決策樹等價於遞歸地二分每一個特征，將輸入空間划分為有限個單元，並在這些單元上預測概率分布，也就是在輸入給定的條件下輸出條件概率分布。

通常目標函數包含兩部分:訓練誤差和正則化

o b j (θ) = L (θ) + Ω (θ)

其中L是損失函數,度量模型預測與真實值的誤差。常用的損失函數：
預測問題的平方損失函數：

L (θ) = Σ i (y i - y i^) 2

logistic 損失：

L (θ) = Σ i [y i l n (1 + e - y i^) + (1 - y i) l n (1 + e

Ω

假設有兩顆回歸樹，則兩棵樹融合后的預測結果如上圖。
用公式表示為：

y i^= Σ K k = 1 f k (x i), f k \in F

其中， K 是樹的個數，

f_{k} (x_{i})

obj (θ) = Σ n i l (y i, y i^) + Σ K k = 1 Ω (f k)

函數 $l$

$l$

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 XGBoost原理 xgboost原理 xgboost原理 xgboost 安裝 xgboost原理及應用--轉 XGBoost算法原理以及實現 xgboost原理及應用詳述Xgboost原理 XGBoost原理簡介 XGBoost原理介紹