邏輯回歸的損失函數
線性回歸的損失函數是平方損失。邏輯回歸的損失函數是對數損失函數,定義如下:
$$Log Loss = \sum_{(x,y)\in D} -ylog(y') - (1 - y)log(1 - y')$$
其中:
- (x,y)ϵD 是包含很多有標簽樣本 (x,y) 的數據集。
- “y”是有標簽樣本中的標簽。由於這是邏輯回歸,因此“y”的每個值必須是 0 或 1。
- “y'”是對於特征集“x”的預測值(介於 0 和 1 之間)。
對數損失函數的方程式與 Shannon 信息論中的熵測量密切相關。假設“y”屬於伯努利分布,它也是似然函數的負對數。實際上,最大限度地降低損失函數的值會生成最大的似然估計值。
邏輯回歸中的正則化
正則化在邏輯回歸建模中極其重要。如果沒有正則化,邏輯回歸的漸近性會不斷促使損失在高維度空間內達到 0。因此,大多數邏輯回歸模型會使用以下兩個策略之一來降低模型復雜性:
- L2 正則化。
- 早停法,即,限制訓練步數或學習速率。
我們會在之后的單元中討論第三個策略 - L1 正則化。
假設您向每個樣本分配一個唯一 ID,且將每個 ID 映射到其自己的特征。如果您未指定正則化函數,模型會變得完全過擬合。這是因為模型會嘗試促使所有樣本的損失達到 0 但始終達不到,從而使每個指示器特征的權重接近正無窮或負無窮。當有大量罕見的特征組合且每個樣本中僅一個時,包含特征組合的高維度數據會出現這種情況。
幸運的是, 使用 L2 或早停法可以防止出現此類問題。
總結:
- 邏輯回歸模型會生成概率。
- 對數損失函數是邏輯回歸的損失函數。
- 邏輯回歸被很多從業者廣泛使用。