Logistic Regression（邏輯回歸）中的損失函數理解

本文轉載自查看原文 2021-08-17 17:13 291

問題：線性回歸中，當我們有m個樣本的時候，我們用的是損失函數是
$J_{(\theta)} = \frac{1}{m}\sum_{i=1}^m\frac{1}{2}(h_{\theta}(x^{(i)}) - y^{(i)})^2$
但是，到了邏輯回歸中，損失函數一下子變成
$J_{(\theta)} = -\frac{1}{m}\sum_{i=1}^m[y^{(i)}log(h_{\theta}(x^{(i)})) + (1-y^{(i)})log(1-h_{\theta}(x^{(i)}))]$
那么，邏輯回歸的損失函數為什么是這個呢？

本文目錄

1. 前置數學知識：最大似然估計

1.1 似然函數

1.2 最大似然估計

2. 邏輯回歸損失函數理解

2.1 邏輯回歸前置知識

2.2 理解方式1(ML課程的講解方式)

2.3 理解方式2

1. 前置數學知識：最大似然估計

1.1 似然函數

若總體 $X$ 屬離散型，其分布律 $P\{X=x\} = p(x;\theta)$ , $\theta\in\Theta$ 的形式已知， $\theta$ 為待估參數， $\Theta$ 是 $\theta$ 的可能取值范圍。設 $X_1, X_2, ..., X_n$ 是來自 $X$ 的樣本，則 $X_1, X_2, ..., X_n$ 的聯合概率分布為
$\prod_{i=1}^np(x_i;\theta)$
設 $x_1, x_2, ..., x_n$ 是相應於樣本 $X_1, X_2, ..., X_n$ 的一個樣本值。則樣本 $X_1, X_2, ..., X_n$ 取到觀察值 $x_1, x_2, ..., x_n$ 的概率，也就是事件 $\{X_1=x_1, X_2=x_2, ..., X_n=x_n\}$ 發生的概率為
$L(\theta)=L(x_1, x_2, ..., x_n;\theta)=\prod_{i=1}^np(x_i;\theta) ,\quad \theta\in\Theta$
$L(\theta)$ 稱為樣本的似然函數，它是 $\theta$ 的函數。(注意：這里 $x_1, x_2, ..., x_n$ 是已知的樣本值，都是常數)

1.2 最大似然估計

關於最大似然估計，我們可以有以下的直觀想法：
現在已經去到樣本值 $x_1, x_2, ..., x_n$ 了，這表明取到這一樣本值的概率 $L(\theta)$ 比較大，而取到其他樣本值概率比較小。由費希爾(R.A.Fisher)引進的最大似然估計，就是固定樣本觀察值 $x_1, x_2, ..., x_n$ ，在 $\theta$ 取值的可能范圍 $\Theta$ 內挑選使似然函數 $L(x_1, x_2, ..., x_n;\theta)$ 達到最大的參數值 $\hat{\theta}$ 使
$L(x_1, x_2, ..., x_n;\hat{\theta})= \max_{\theta\in\Theta}L(x_1, x_2, ..., x_n;\theta)$
這樣得到的 $\hat{\theta}$ 與樣本值 $x_1, x_2, ..., x_n$ 有關，常記為 $\hat{\theta}(x_1, x_2, ..., x_n)$ ，稱為參數 $\theta$ 的最大似然估計值，相應的統計量 $\hat{\theta}(X_1, X_2, ..., X_n)$ 稱為參數 $\theta$ 的最大似然估計量。
確定最大似然估計量的問題，就可以歸結為求最大值的問題了。一般的求最大似然估計，都是轉化為對數形式的似然函數來進行求解。
似然函數：
$L(\theta)=L(x_1, x_2, ..., x_n;\theta)=\prod_{i=1}^np(x_i;\theta) ,\quad \theta\in\Theta$
對數形式的似然函數(這里是自然對數，底數為e)
$logL(\theta)= \sum_{i=1}^nlog\left(p(x_i;\theta)\right) ,\quad \theta\in\Theta$
簡單總結：
上面的數學知識說的通俗一點，就是通過樣本來預測總體的分布，怎么來預測呢？
讓總體分布盡量與樣本的分布趨同，就是總體的分布與樣本分布具有最大的相似性，然后再來求取分布中的參數 $\theta$ 。

2. 邏輯回歸損失函數理解

2.1 邏輯回歸前置知識

回歸：輸出的是連續數據，目的是找到最優的擬合。（例如：預測氣溫）
分類：輸出的是離散數據，目的是找到決策邊界。（例如：預測硬幣正反）
邏輯回歸是用來解決分類問題的，這里有一個前提假設，就是樣本服從0-1分布，也就是伯努利分布n=1的情況。
0-1分布的分布律為：

X(隨機變量)	0	1
P(概率)	1-p	p

下面介紹一下sigmoid函數如下：
$y=\frac{1}{1+e^{(-x)}}$

sigmoid函數.png

這個函數的輸出結果是一種概率，介於0到1之間。

2.2 理解方式1(ML課程的講解方式)

邏輯回歸中sigmoid函數為 $h_{\theta}(x)=\frac{1}{1+e^{(-\theta^T x)}}$ (其中 $\theta^T x=\sum_{i=0}^{n}\theta_ix_i$ )
可以用sigmoid函數表示0-1中取1的概率。所以我們的損失函數可以定義為
$當y=0時，Cost(h_\theta(x),y)=-log(1-h_\theta(x))$
$當y=1時，Cost(h_\theta(x),y)=-log(h_\theta(x))$
當我們把損失函數與0-1分布的分布律對應起來的時候， $p=h_{\theta}(x)$ ，損失函數就是在0-1分布的基礎上取對數然后再取負數。這也好理解，損失函數的要求就是預測結果與真實結果越相近，函數值越小，所以會在前面加上負號。當y=0時，1-p的概率會比較大，在前面加上負號，Cost值就會很小；當y=1時，p的概率會比較大，在前面加上負號，Cost值就會很小。至於取對數，就是跟最大似然函數有關系，取對數不影響原本函數的單調性，而且會放大概率之間的差異，更好的區分各個樣本的類別。
把上面損失函數寫成統一的形式：
$J(\theta)=-\frac{1}{m}\sum_{i=1}^m[y^{(i)}logh_{\theta}(x^{(i)})+(1-y^{(i)})log(1-h_{\theta}(x^{(i)}))]$
好了，至此，我們得到了邏輯回歸的損失函數。雖然大家都是這么講的，但是，總是感覺沒有太懂為什么最后得到了這個損失函數。如果想從數學的角度推導，可以繼續往下看。

2.3 理解方式2

對於0-1分布的似然函數

0-1分布的分布律為
$P\{X=k\}=p^{k}(1-p)^{1-k}, k=0,1 (0<p<1)$
當 $x_1, x_2, ..., x_n$ 是來自於樣本 $X_1, X_2, ..., X_n$ 的一個樣本值，X的分布律為
$P\{X=x\}=p^{x}(1-p)^{1-x}, x=0,1 (0<p<1)$
它的似然函數為
$L(p) = \prod_{i=1}^{n}p^{x_i}(1-p)^{1-x_i}$
似然函數的對數形式為
$logL(p) = (\sum_{i=1}^{n}{x_i})log\ p+ (\sum_{i=1}^{n}{(1-x_i)})log(1-p)$

對於邏輯回歸的似然函數

邏輯回歸中sigmoid函數為 $h_{\theta}(x)=\frac{1}{1+e^{(-\theta^T x)}}$ ，可以用sigmoid函數表示0-1中取1的概率，在這里用於表示邏輯回歸中的概率。邏輯回歸中的樣本值為 $((x^1, y^1), (x^2, y^2) ..., (x^m, y^m))$ ，樣本中的 $x^i$ 是用來求概率 $h_{\theta}(x)$ 的， $y^i$ 是樣本的真實值，也就是真實類別。在機器學習中，習慣稱 $x^i$ 為特征值， $y^i$ 為標簽。
$h_{\theta}(x)$ 對應於0-1分布中的概率 $p$ ， $y^i$ 對應於0-1分布中的 $x_i$ ，也就是樣本值。這樣我們就把邏輯回歸和0-1分布對應起來了。我們用邏輯回歸來作為分類模型，需要用最大似然估計的方法來評判模型的好壞。讓總體分布盡量與樣本的分布趨同，就是總體的分布與樣本分布具有最大的相似性，然后再來求取模型中的參數 $\theta$ ，這樣就可以得到比較符合最大似然估計的模型。這個模型其實就是 $h_{\theta}(x)$ 。
根據0-1分布的似然函數，我們可以寫出邏輯回歸的似然函數
$L(p) = \prod_{i=1}^{m}h_{\theta}(x^{(i)})^{y^{(i)}}(1-h_{\theta}(x^{(i)}))^{1-y^{(i)}}$
對數形式為
$logL(p) = \sum_{i=1}^{m}{y^{(i)}}log\ h_{\theta}(x^{(i)})+\sum_{i=1}^{m}(1-y^{(i)})log(1-h_{\theta}(x^{(i)}))$
邏輯回歸的損失函數為
$J(\theta)=-\frac{1}{m}\sum_{i=1}^m[y^{(i)}logh_{\theta}(x^{(i)})+(1-y^{(i)})log(1-h_{\theta}(x^{(i)}))]$
$J(\theta) = -\frac{1}{m}logL(p)$
損失函數跟對數形式的似然函數很像，只是在前面乘以 $-\frac{1}{m}$ 。最大似然估計的方法要求 $logL(p)$ 的最大值，損失函數在其前面加上負號，就是求最小值，這個跟損失函數的特性剛好吻合。1/m是用來對m個樣本值的損失函數值取平均，不會影響函數功能。
因此，邏輯回歸的損失函數求最小值，就是根據最大似然估計的方法來的。

作者：PhoenixShine
鏈接：https://www.jianshu.com/p/b6bb6c035d8c
來源：簡書
著作權歸作者所有。商業轉載請聯系作者獲得授權，非商業轉載請注明出處。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 談談對機器學習中邏輯回歸的理解（Logistic Regression）邏輯回歸(Logistic Regression)二分類原理，交叉熵損失函數及python numpy實現吳恩達深度學習：2.1Logistic Regression邏輯回歸及其損失函數邏輯回歸(logistic regression) 邏輯回歸（Logistic Regression）邏輯回歸（Logistic Regression）邏輯回歸（Logistic Regression）邏輯回歸問題（Logistic Regression）邏輯回歸（Logistic Regression）推導 logistic回歸損失函數（非常重要，深入理解）