邏輯回歸感知機異同,損失函數思考


邏輯斯蒂回歸和感知機的異同:

兩類都是線性分類器;

損失函數兩者不同:邏輯斯蒂回歸使用極大似然(對數損失函數),感知機使用的是均方損失函數(即錯誤點到分離平面的距離,最小化這個值)

邏輯斯蒂比感知機的優點在於對於激活函數的改進。

前者為sigmoid function,后者為階躍函數。這就導致LR是連續可導,而階躍函數則沒有這個性質。

LR使得最終結果有了概率解釋的能力(將結果限制在0-1之間),sigmoid為平滑函數,能夠得到更好的分類結果,而step function為分段函數,對於分類的結果處理比較粗糙,非0即1,而不是返回一個分類的概率。

邏輯斯蒂回歸為什么不能用均方損失作為損失函數呢:

首先設想一下,目標函數為E_{w,b}=\sum_{i=1}^{m}\left ( y_{i}-\frac{1}{1+e^{-\left ( w^{T}x_{i}+b \right )}}\right )^2 ,並不是不可以求解,那為什么不用呢?

知乎大神解決了我的疑惑:

如果用最小二乘法,目標函數就是 E_{w,b}=\sum_{i=1}^{m}\left ( y_{i}-\frac{1}{1+e^{-\left ( w^{T}x_{i}+b \right )}}\right )^2 ,是非凸的,不容易求解,會得到局部最優。

最小二乘作為損失函數的函數曲線:

 最小二乘作為邏輯回歸模型的損失函數,theta為待優化參數



如果用最大似然估計,目標函數就是對數似然函數: l_{w,b}=\sum_{i=1}^{m}\left ( -y_{i}\left ( w^{T}x_{i}+b \right )+ln\left ( 1+e^{w^{T}x_{i}+b} \right ) \right ) ,是關於 (w,b) 的高階連續可導凸函數,可以方便通過一些凸優化算法求解,比如梯度下降法、牛頓法等。

最大似然作為損失函數的函數曲線(最大似然損失函數后面給出):

再來附加一個大神的推導:

面來推一下邏輯回歸中最大損失函數到底是怎么來的,因為我看到很多地方只是說了一下用到最大似然的方法,就直接給出了最終的形式,還看到有書里面過程搞錯了,也給出了最終的正確形式。

既然是最大似然,我們的目標當然是要最大化似然概率了:

max \prod_{i=1}^{m}p(y_{i}|x_{i},\theta)

對於二分類問題有:

p_{1}=p(y=1|x,\theta)=\frac{e^{x\theta}}{1+e^{x\theta}},y=1

p_{0}=p(y=0|x,\theta)=\frac{1}{1+e^{x\theta}},y=0

用一個式子表示上面這個分段的函數為:(記得寫成相乘的形式)

p=p(y|x,\theta)=p_{1}^{y_{i}}\ast p_{0}^{1-y_{i}}

代入目標函數中,再對目標函數取對數,則目標函數變為:

max \sum_{i=1}^{m}({y_{i}log^{p_{1}}+(1-y_{i})log^{p_{0}})}

如果用 h_{\theta}(x_{i}) 來表示 p_{1} ,則可用 1-h_{\theta}(x_{i}) 來表示 p_{0} ,再將目標函數max換成min,則目標函數變為:

min -\frac{1}{m}\sum_{i=1}^{m}({y_{i}log^{h_{\theta}(x_{i})}+(1-y_{i})log^{1-h_{\theta}(x_{i})})}

這樣就得到最終的形式了!


作者:臨熙
鏈接:https://www.zhihu.com/question/65350200/answer/266277291
來源:知乎
著作權歸作者所有。商業轉載請聯系作者獲得授權,非商業轉載請注明出處。
 
邏輯斯蒂回歸中的極大似然是什么?極大似然,對數損失函數,交叉熵之間的區別聯系:
邏輯斯蒂回歸使用的是極大似然就相當於最小化負的似然函數,從損失函數的角度來看就變成了對數損失
 
極大似然和交叉熵之間的表現形式一樣。好神奇,有空繼續補充



 

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM