假設函數:

更為一般的表達式:
(1)
似然函數:
(2)
對數似然函數:
如果以上式作為目標函數,就需要最大化對數似然函數,我們這里選擇
最小化負的對數似然函數
(3)
對J(w)求極小值,對
求導
求導
(4)
上述中
表示第i個樣本的第j個屬性的取值。
表示第i個樣本的第j個屬性的取值。
於是
的更新方式為:
的更新方式為:
(5)
將(5)式帶入(4)式,得:
梯度下降GD
的更新方式,使用全部樣本:
的更新方式,使用全部樣本:
(6)
當樣本不多的時候,可以選擇這個方法
隨機梯度下降:
每次只取一個樣本,則
的更新方式:
的更新方式:
(7)
為這個樣本的特征值,
是其真實值,
是這個樣本的第j個屬性
隨機平均梯度下降法(sag,Stochasitc Average Gradient ):
該算法是選取一小部分樣本梯度的平均值來更新權重(其中n<m,m為樣本數)
(8)
SGD和GD算法的折中
小結:
在嘗試寫一些機器學習相關的筆記,先寫下一篇,歡迎討論~
