LR為什么用極大似然估計,損失函數為什么是log損失函數(交叉熵)


首先,邏輯回歸是一個概率模型,不管x取什么值,最后模型的輸出也是固定在(0,1)之間,這樣就可以代表x取某個值時y是1的概率

這里邊的參數就是θ,我們估計參數的時候常用的就是極大似然估計,為什么呢?可以這么考慮

比如有n個x,xi對應yi=1的概率是pi,yi=0的概率是1-pi,當參數θ取什么值最合適呢,可以考慮

n個x中對應k個1,和(n-k)個0(這里k個取1的樣本是確定的,這里就假設前k個是1,后邊的是0.平時訓練模型拿到的樣本也是確定的,如果不確定還要排列組合)

則(p1*p2*...*pk)*(1-pk+1)*(1-pk+2)*...*(1-pn)最大時,θ是最合適的。聯合概率最大嘛,就是總體猜的最准,就是盡可能使機器學習中所有樣本預測到對應分類得概率整體最大化。

其實上邊的算式就是極大似然估計的算式:

對應到LR中:

總之就是因為LR是概率模型,對概率模型估計參數用極大似然,原理上邊說了

 

然后為什么用logloss作為cost function呢

主要的原因就是因為似然函數的本質和損失函數本質的關系

對數似然函數:

 可以看到對數似然函數和交叉熵函數在二分類的情況下形式是幾乎一樣的,可以說最小化交叉熵的本質就是對數似然函數的最大化。

對數似然函數的本質就是衡量在某個參數下,整體的估計和真實情況一樣的概率,越大代表越相近

而損失函數的本質就是衡量預測值和真實值之間的差距,越大代表越不相近。

他們兩個是相反的一個關系,至於損失函數的懲罰程度,可以用參數修正,我們這里不考慮。

所以在對數似然前邊加一個負號代表相反,這樣就把對數似然轉化成了一個損失函數,然后把y取0和1的情況分開(寫成分段函數),就是:

 

 意義就是:當y=1時,h=1時沒有損失,h越趨近0損失越大

當y=0時,h=0沒有損失,h越趨近1損失越大。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM