假設函數:

更為一般的表達式:


似然函數:


對數似然函數:

如果以上式作為目標函數,就需要最大化對數似然函數,我們這里選擇
最小化負的對數似然函數


對J(w)求極小值,對
求導




上述中
表示第i個樣本的第j個屬性的取值。

於是
的更新方式為:


將(5)式帶入(4)式,得:
梯度下降GD
的更新方式,使用全部樣本:


當樣本不多的時候,可以選擇這個方法
隨機梯度下降:
每次只取一個樣本,則
的更新方式:










隨機平均梯度下降法(sag,Stochasitc Average Gradient ):
該算法是選取一小部分樣本梯度的平均值來更新權重(其中n<m,m為樣本數)

SGD和GD算法的折中
小結:
在嘗試寫一些機器學習相關的筆記,先寫下一篇,歡迎討論~