梯度下降法推導，凸函數，收斂性推導

本文轉載自查看原文 2020-09-16 20:04 1090 機器學習&深度學習

1.梯度下降法的收斂性

針對迭代式算法，我們就要Convergency Analysis（收斂性分析）

（1）什么是平滑函數，非平滑函數？

平滑函數--在每個點上求出梯度

非平滑函數---在那個點上求不出梯度的，

L-Lipschitz條件：是針對平滑函數的條件

Logistic Regression ，Linear Regression都是滿足L-Lipschitz條件的

線性回歸和邏輯回歸都是凸函數

f(x*)是最終的收斂后的解，代表的最終想達到的最小值

我們的目標是通過學習的方式，使得f(x_k)慢慢的接近f(x*)，即

這一項如果隨着迭代次數的增加（梯度下降法），慢慢的變小，就等同於f(x_k)慢慢的接近f(x*)。

如果這一項的變小的趨勢非常快，代表梯度下降法比較優質，而且很快可以收斂。

一個好的算法，在有限的最好的次數之內，可以看到A算法，在20次迭代，f(x_k)接近f(x*)的速度比較快。

ε表示k次迭代，真實的值與預測值之間只存在ε的差距

推導過程：

2.凸函數的性質

3.L-Lipschitz條件及定理

兩個定理：

4.收斂性推導

上面的f(x_i+1)<=f(x_i)表示的是：

梯度下降法每次的更新一定要比之前的好，這是標准意義上的梯度下降法，隨機梯度下降法不能保證每次的更新優於之前的。

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 梯度下降法參數更新公式的推導邏輯回歸與梯度下降法全部詳細推導 GBDT與xgb區別，以及梯度下降法和牛頓法的數學推導梯度下降法基本推導--機器學習最基本的起點第二周：梯度下降法的向量化推導 [ML從入門到入門] 支持向量機：從SVM的推導過程到SMO的收斂性討論梯度下降法——得到的結果可能是局部最優值，如果凸函數則可保證梯度下降得到的是全局最優值梯度下降法公式推導過程--再次補充:導數部分化簡牛頓法與梯度下降法數學公式推導過程 logstic回歸損失函數及梯度下降公式推導