邏輯回歸--模型訓練

本文轉載自查看原文 2018-03-25 10:17 994 AI/ 模型訓練/ 邏輯回歸

邏輯回歸的損失函數

線性回歸的損失函數是平方損失。邏輯回歸的損失函數是對數損失函數，定義如下：

$$Log Loss = \sum_{(x,y)\in D} -ylog(y') - (1 - y)log(1 - y')$$

其中：

(x,y)&straightepsilon;D 是包含很多有標簽樣本 (x,y) 的數據集。
“y”是有標簽樣本中的標簽。由於這是邏輯回歸，因此“y”的每個值必須是 0 或 1。
“y'”是對於特征集“x”的預測值（介於 0 和 1 之間）。

對數損失函數的方程式與 Shannon 信息論中的熵測量密切相關。假設“y”屬於伯努利分布，它也是似然函數的負對數。實際上，最大限度地降低損失函數的值會生成最大的似然估計值。

邏輯回歸中的正則化

正則化在邏輯回歸建模中極其重要。如果沒有正則化，邏輯回歸的漸近性會不斷促使損失在高維度空間內達到 0。因此，大多數邏輯回歸模型會使用以下兩個策略之一來降低模型復雜性：

L2 正則化。
早停法，即，限制訓練步數或學習速率。

我們會在之后的單元中討論第三個策略 - L1 正則化。

假設您向每個樣本分配一個唯一 ID，且將每個 ID 映射到其自己的特征。如果您未指定正則化函數，模型會變得完全過擬合。這是因為模型會嘗試促使所有樣本的損失達到 0 但始終達不到，從而使每個指示器特征的權重接近正無窮或負無窮。當有大量罕見的特征組合且每個樣本中僅一個時，包含特征組合的高維度數據會出現這種情況。

幸運的是, 使用 L2 或早停法可以防止出現此類問題。

總結：

邏輯回歸模型會生成概率。
對數損失函數是邏輯回歸的損失函數。
邏輯回歸被很多從業者廣泛使用。

引用

邏輯回歸 (Logistic Regression)：計算概率

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 邏輯回歸模型分析邏輯回歸模型分析邏輯回歸模型用Pytorch訓練線性回歸模型邏輯斯蒂回歸模型 Python之邏輯回歸模型來預測從零開始構建邏輯回歸模型邏輯回歸模型(Logistic Regression, LR)基礎邏輯回歸模型（Logistic Regression）及Python實現邏輯回歸和最大熵模型