1.梯度下降法的收斂性
針對迭代式算法,我們就要Convergency Analysis(收斂性分析)
(1)什么是平滑函數,非平滑函數?
平滑函數--在每個點上求出梯度
非平滑函數---在那個點上求不出梯度的,
L-Lipschitz條件:是針對平滑函數的條件
Logistic Regression ,Linear Regression都是滿足L-Lipschitz條件的
線性回歸和邏輯回歸都是凸函數
f(x*)是最終的收斂后的解,代表的最終想達到的最小值
我們的目標是通過學習的方式,使得f(xk)慢慢的接近f(x*),即
這一項如果隨着迭代次數的增加(梯度下降法),慢慢的變小,就等同於f(xk)慢慢的接近f(x*)。
如果這一項的變小的趨勢非常快,代表梯度下降法比較優質,而且很快可以收斂。
一個好的算法,在有限的最好的次數之內,可以看到A算法,在20次迭代,f(xk)接近f(x*)的速度比較快。
ε表示k次迭代,真實的值與預測值之間只存在ε的差距
推導過程:
2.凸函數的性質
3.L-Lipschitz條件及定理
兩個定理:
4.收斂性推導
上面的f(xi+1)<=f(xi)表示的是:
梯度下降法每次的更新一定要比之前的好,這是標准意義上的梯度下降法,隨機梯度下降法不能保證每次的更新優於之前的。