邏輯斯蒂回歸和感知機的異同:
兩類都是線性分類器;
損失函數兩者不同:邏輯斯蒂回歸使用極大似然(對數損失函數),感知機使用的是均方損失函數(即錯誤點到分離平面的距離,最小化這個值)
邏輯斯蒂比感知機的優點在於對於激活函數的改進。
前者為sigmoid function,后者為階躍函數。這就導致LR是連續可導,而階躍函數則沒有這個性質。
LR使得最終結果有了概率解釋的能力(將結果限制在0-1之間),sigmoid為平滑函數,能夠得到更好的分類結果,而step function為分段函數,對於分類的結果處理比較粗糙,非0即1,而不是返回一個分類的概率。
邏輯斯蒂回歸為什么不能用均方損失作為損失函數呢:
首先設想一下,目標函數為
,並不是不可以求解,那為什么不用呢?
知乎大神解決了我的疑惑:
如果用最小二乘法,目標函數就是
,是非凸的,不容易求解,會得到局部最優。
最小二乘作為損失函數的函數曲線:
如果用最大似然估計,目標函數就是對數似然函數:
,是關於
的高階連續可導凸函數,可以方便通過一些凸優化算法求解,比如梯度下降法、牛頓法等。
最大似然作為損失函數的函數曲線(最大似然損失函數后面給出):
面來推一下邏輯回歸中最大損失函數到底是怎么來的,因為我看到很多地方只是說了一下用到最大似然的方法,就直接給出了最終的形式,還看到有書里面過程搞錯了,也給出了最終的正確形式。
既然是最大似然,我們的目標當然是要最大化似然概率了:

對於二分類問題有:


用一個式子表示上面這個分段的函數為:(記得寫成相乘的形式)

代入目標函數中,再對目標函數取對數,則目標函數變為:

如果用
來表示
,則可用
來表示
,再將目標函數max換成min,則目標函數變為:

這樣就得到最終的形式了!
作者:臨熙
鏈接:https://www.zhihu.com/question/65350200/answer/266277291
來源:知乎
著作權歸作者所有。商業轉載請聯系作者獲得授權,非商業轉載請注明出處。
