logistic 損失函數的解釋( Explanation of logistic regression cost function)
在邏輯回歸中,需要預測的結果$\hat y$可以表示為$\hat y = \sigma ({w^T}x + b)$,我們約定$\hat y = p(y|x)$,也就是說,算法輸出的$\hat y$是給定訓練樣本x條件下y等於1的概率。
- y=1時,在給定訓練樣本x條件下$y = \hat y$;
- y=0時,在給定訓練樣本x條件下$y = 1- \hat y$;
因此,如果$\hat y$代表y=1的概率,那么$1- \hat y$就代表y=0的概率。將上面兩個公式合二為一:
$p(y|x) = {{\hat y}^y}{(1 - \hat y)^{(1 - y)}}$
- 當y=1時,$p(y|x) = \hat y$
- 當y=0時,$p(y|x) = 1 - \hat y$
由於log函數是嚴格單調遞增的函數 ,最大化$\log (p(y|x))$等價於最大化$p(y|x)$,於是對式子兩邊取對數可以將函數簡化為:
$y\log \hat y + (1 - y)\log (1 - \hat y)$
這個式子相當於都邏輯回歸損失函數取負,即:
$y\log \hat y + (1 - y)\log (1 - \hat y) = - (L(\hat y,y))$
負號在此解釋為,在邏輯回歸中我們需要最小化損失函數,由此,最小化損失函數和最大化條件概率的對數$\log (p(y|x))$就建立起了關系,這就是單個訓練樣本的損失函數表達式。
對於m個訓練樣本,它們獨立同分布,所以聯合概率就是每個樣本密度的乘積:
$\log p(label{\mathop{\rm s}\nolimits} \;in\;training\;set) = \log \prod\limits_{i = 1}^m {p({y^{(i)}}|{x^{(i)}})}$
如果想做最大似然估計,需要尋找一組參數,使得給定樣本的觀測值概率最大,使得這個概率最大化等價於使其對數最大化,於是:
$\log p(label{\mathop{\rm s}\nolimits} \;in\;training\;set) = \log \prod\limits_{i = 1}^m {p({y^{(i)}}|{x^{(i)}})} = \sum\limits_{i = 1}^m {\log p({y^{(i)}}|{x^{(i)}}) = \sum\limits_{i = 1}^m { - L({{\hat y}^{(i)}},{y^{(i)}})} }$
統計學中稱這種方法為最大似然估計,在實際使用時可以對代價函數進行適當的縮放,即在外面加一個常數因子,由此便得到我們的邏輯回歸代價函數:
$J(w,b) = \frac{1}{m}\sum\limits_{i = 1}^m {L({{\hat y}^{(i)}},{y^{(i)}})}$
