Logistic Regression(邏輯回歸)中的損失函數理解


問題:線性回歸中,當我們有m個樣本的時候,我們用的是損失函數是
J_{(\theta)} = \frac{1}{m}\sum_{i=1}^m\frac{1}{2}(h_{\theta}(x^{(i)}) - y^{(i)})^2
但是,到了邏輯回歸中,損失函數一下子變成
J_{(\theta)} = -\frac{1}{m}\sum_{i=1}^m[y^{(i)}log(h_{\theta}(x^{(i)})) + (1-y^{(i)})log(1-h_{\theta}(x^{(i)}))]
那么,邏輯回歸的損失函數為什么是這個呢?

本文目錄

1. 前置數學知識:最大似然估計

1.1 似然函數

1.2 最大似然估計

2. 邏輯回歸損失函數理解

2.1 邏輯回歸前置知識

2.2 理解方式1(ML課程的講解方式)

2.3 理解方式2


1. 前置數學知識:最大似然估計

1.1 似然函數

若總體X屬離散型,其分布律P\{X=x\} = p(x;\theta)\theta\in\Theta的形式已知,\theta為待估參數,\Theta\theta的可能取值范圍。設X_1, X_2, ..., X_n是來自X的樣本,則X_1, X_2, ..., X_n的聯合概率分布為
\prod_{i=1}^np(x_i;\theta)
x_1, x_2, ..., x_n是相應於樣本X_1, X_2, ..., X_n的一個樣本值。則樣本X_1, X_2, ..., X_n取到觀察值x_1, x_2, ..., x_n的概率,也就是事件\{X_1=x_1, X_2=x_2, ..., X_n=x_n\}發生的概率為
L(\theta)=L(x_1, x_2, ..., x_n;\theta)=\prod_{i=1}^np(x_i;\theta) ,\quad \theta\in\Theta
L(\theta)稱為樣本的似然函數,它是\theta的函數。(注意:這里x_1, x_2, ..., x_n是已知的樣本值,都是常數)

1.2 最大似然估計

關於最大似然估計,我們可以有以下的直觀想法:
現在已經去到樣本值x_1, x_2, ..., x_n了,這表明取到這一樣本值的概率L(\theta)比較大,而取到其他樣本值概率比較小。由費希爾(R.A.Fisher)引進的最大似然估計,就是固定樣本觀察值x_1, x_2, ..., x_n,在\theta取值的可能范圍\Theta內挑選使似然函數L(x_1, x_2, ..., x_n;\theta)達到最大的參數值\hat{\theta}使
L(x_1, x_2, ..., x_n;\hat{\theta})= \max_{\theta\in\Theta}L(x_1, x_2, ..., x_n;\theta)
這樣得到的\hat{\theta}與樣本值x_1, x_2, ..., x_n有關,常記為\hat{\theta}(x_1, x_2, ..., x_n),稱為參數\theta最大似然估計值,相應的統計量\hat{\theta}(X_1, X_2, ..., X_n)稱為參數\theta的最大似然估計量。
確定最大似然估計量的問題,就可以歸結為求最大值的問題了。一般的求最大似然估計,都是轉化為對數形式的似然函數來進行求解。
似然函數:
L(\theta)=L(x_1, x_2, ..., x_n;\theta)=\prod_{i=1}^np(x_i;\theta) ,\quad \theta\in\Theta
對數形式的似然函數(這里是自然對數,底數為e)
logL(\theta)= \sum_{i=1}^nlog\left(p(x_i;\theta)\right) ,\quad \theta\in\Theta
簡單總結:
上面的數學知識說的通俗一點,就是通過樣本來預測總體的分布,怎么來預測呢?
讓總體分布盡量與樣本的分布趨同,就是總體的分布與樣本分布具有最大的相似性,然后再來求取分布中的參數\theta


2. 邏輯回歸損失函數理解

2.1 邏輯回歸前置知識

回歸:輸出的是連續數據,目的是找到最優的擬合。(例如:預測氣溫)
分類:輸出的是離散數據,目的是找到決策邊界。(例如:預測硬幣正反)
邏輯回歸是用來解決分類問題的,這里有一個前提假設,就是樣本服從0-1分布,也就是伯努利分布n=1的情況。
0-1分布的分布律為:

X(隨機變量) 0 1
P(概率) 1-p p

下面介紹一下sigmoid函數如下:
y=\frac{1}{1+e^{(-x)}}

 
sigmoid函數.png

這個函數的輸出結果是一種概率,介於0到1之間。

 

2.2 理解方式1(ML課程的講解方式)

邏輯回歸中sigmoid函數為h_{\theta}(x)=\frac{1}{1+e^{(-\theta^T x)}} (其中\theta^T x=\sum_{i=0}^{n}\theta_ix_i)
可以用sigmoid函數表示0-1中取1的概率。所以我們的損失函數可以定義為
當y=0時,Cost(h_\theta(x),y)=-log(1-h_\theta(x))
當y=1時,Cost(h_\theta(x),y)=-log(h_\theta(x))
當我們把損失函數與0-1分布的分布律對應起來的時候,p=h_{\theta}(x),損失函數就是在0-1分布的基礎上取對數然后再取負數。這也好理解,損失函數的要求就是預測結果與真實結果越相近,函數值越小,所以會在前面加上負號。當y=0時,1-p的概率會比較大,在前面加上負號,Cost值就會很小;當y=1時,p的概率會比較大,在前面加上負號,Cost值就會很小。至於取對數,就是跟最大似然函數有關系,取對數不影響原本函數的單調性,而且會放大概率之間的差異,更好的區分各個樣本的類別。
把上面損失函數寫成統一的形式:
J(\theta)=-\frac{1}{m}\sum_{i=1}^m[y^{(i)}logh_{\theta}(x^{(i)})+(1-y^{(i)})log(1-h_{\theta}(x^{(i)}))]
好了,至此,我們得到了邏輯回歸的損失函數。雖然大家都是這么講的,但是,總是感覺沒有太懂為什么最后得到了這個損失函數。如果想從數學的角度推導,可以繼續往下看。

2.3 理解方式2

對於0-1分布的似然函數

0-1分布的分布律為
P\{X=k\}=p^{k}(1-p)^{1-k}, k=0,1 (0<p<1)
x_1, x_2, ..., x_n是來自於樣本X_1, X_2, ..., X_n的一個樣本值,X的分布律為
P\{X=x\}=p^{x}(1-p)^{1-x}, x=0,1 (0<p<1)
它的似然函數為
L(p) = \prod_{i=1}^{n}p^{x_i}(1-p)^{1-x_i}
似然函數的對數形式為
logL(p) = (\sum_{i=1}^{n}{x_i})log\ p+ (\sum_{i=1}^{n}{(1-x_i)})log(1-p)

對於邏輯回歸的似然函數

邏輯回歸中sigmoid函數為h_{\theta}(x)=\frac{1}{1+e^{(-\theta^T x)}},可以用sigmoid函數表示0-1中取1的概率,在這里用於表示邏輯回歸中的概率。邏輯回歸中的樣本值為((x^1, y^1), (x^2, y^2) ..., (x^m, y^m)),樣本中的x^i是用來求概率h_{\theta}(x)的,y^i是樣本的真實值,也就是真實類別。在機器學習中,習慣稱x^i為特征值,y^i為標簽。
h_{\theta}(x)對應於0-1分布中的概率py^i對應於0-1分布中的x_i,也就是樣本值。這樣我們就把邏輯回歸和0-1分布對應起來了。我們用邏輯回歸來作為分類模型,需要用最大似然估計的方法來評判模型的好壞。讓總體分布盡量與樣本的分布趨同,就是總體的分布與樣本分布具有最大的相似性,然后再來求取模型中的參數\theta,這樣就可以得到比較符合最大似然估計的模型。這個模型其實就是h_{\theta}(x)
根據0-1分布的似然函數,我們可以寫出邏輯回歸的似然函數
L(p) = \prod_{i=1}^{m}h_{\theta}(x^{(i)})^{y^{(i)}}(1-h_{\theta}(x^{(i)}))^{1-y^{(i)}}
對數形式為
logL(p) = \sum_{i=1}^{m}{y^{(i)}}log\ h_{\theta}(x^{(i)})+\sum_{i=1}^{m}(1-y^{(i)})log(1-h_{\theta}(x^{(i)}))
邏輯回歸的損失函數為
J(\theta)=-\frac{1}{m}\sum_{i=1}^m[y^{(i)}logh_{\theta}(x^{(i)})+(1-y^{(i)})log(1-h_{\theta}(x^{(i)}))]
J(\theta) = -\frac{1}{m}logL(p)
損失函數跟對數形式的似然函數很像,只是在前面乘以-\frac{1}{m}。最大似然估計的方法要求logL(p)的最大值,損失函數在其前面加上負號,就是求最小值,這個跟損失函數的特性剛好吻合。1/m是用來對m個樣本值的損失函數值取平均,不會影響函數功能。
因此,邏輯回歸的損失函數求最小值,就是根據最大似然估計的方法來的。



作者:PhoenixShine
鏈接:https://www.jianshu.com/p/b6bb6c035d8c
來源:簡書
著作權歸作者所有。商業轉載請聯系作者獲得授權,非商業轉載請注明出處。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM