機器學習 LR中的參數迭代公式推導——極大似然和梯度下降


 

Logistic本質上是一個基於條件概率的判別模型(DiscriminativeModel)。

                           

wKioL1TEnTjA2NPbAAAZDt4MjeU599.jpg

函數圖像為:

wKioL1TEnTiD9dUWAAB7G34zbW0271.jpg

通過sigma函數計算出最終結果,以0.5為分界線,最終結果大於0.5則屬於正類(類別值為1),反之屬於負類(類別值為0)。

如果將上面的函數擴展到多維空間,並且加上參數,則函數變成:

wKiom1TEnF3xBqCrAAAtwFC_Y7M318.jpg

接下來問題來了,如何得到合適的參數向量θ呢?

 

由於sigma函數的特性,我們可作出如下的假設:

wKiom1TEnF2hTs5PAABLtf3DlpQ603.jpg

上式即為在已知樣本X和參數θ的情況下,樣本X屬性正類(y=1)和負類(y=0)的條件概率。

 

將兩個公式合並成一個,如下:

wKioL1TEnTnA8ZKSAAA8rx3sZUM132.jpg

既然概率出來了,那么最大似然估計也該出場了。假定樣本與樣本之間相互獨立,那么整個樣本集生成的概率即為所有樣本生成概率的乘積:

wKioL1TEnTmCIvnhAACSHATjZaY077.jpg

為了簡化問題,我們對整個表達式求對數,(將指數問題對數化是處理數學問題常見的方法):

wKiom1TEnF7glwX2AABxj9lYg18460.jpg

滿足似然函數(θ)的最大的θ值即是我們需要求解的模型。

 

梯度上升算法

 

     就像爬坡一樣,一點一點逼近極值。爬坡這個動作用數學公式表達即為:

wKioL1TEnTyxHegQAAAgSFtr9U4431.jpg 

其中,α為步長。

回到Logistic Regression問題,我們同樣對函數求偏導。

wKiom1TEnGHhkXbMAAFCAkpV7Zs421.jpg

 

先看:

wKiom1TEnGGgVCkNAABH3qNWcA4288.jpg

其中:

wKiom1TEnfKTaMuVAABFm0Px270384.jpg

再由:

wKioL1TEnT-xsSdfAABva83f19A126.jpg

可得:

wKiom1TEnGPTqcd8AAAxlx9xE7w874.jpg

接下來就剩下第三部分:

 wKioL1TEnT_jreuTAAA53p9A8ec077.jpg

(這個公式應該很容易理解,簡單的偏導公式)

還有就是:

wKioL1TEnwPzRXsWAAAtwFC_Y7M157.jpg

綜合三部分即得到:

wKiom1TEnGTAhlbMAAAfcirD1mM147.jpg

 

因此,梯度迭代公式為:

wKiom1TEnGSDl1JuAAAqXOo511s178.jpg

      

       結合本式再去理解《機器學習實戰》Page 78中的代碼就很簡單了。

 摘自:http://sbp810050504.blog.51cto.com/2799422/1608064


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM