梯度下降和最小二乘總結


梯度下降:

  1,批量梯度(BGD),隨機梯度下降法(SGD),小批量梯度下降法(MBGD)的區別

  2,和最小二乘比較

    1,梯度下降法需要選擇步長,而最小二乘法不需要。

    2,梯度下降法是迭代求解,最小二乘法是計算解析解。

    3,最小二乘僅適用數據量較小的情況下

  3,和牛頓法比較

    1,梯度下降法是梯度求解,而牛頓法/擬牛頓法是用二階的海森矩陣的逆矩陣或偽逆矩陣求解。

    2,相對而言,使用牛頓法/擬牛頓法收斂更快。但是每次迭代的時間比梯度下降法長。

最小二乘:

  1,最小二乘法需要計算XTX的逆矩陣,有可能它的逆矩陣不存在,這樣就沒有辦法直接用最小二乘法了,此時梯度下降法仍然可以使用。當然,我們可以通過對樣本數據進行整理,去掉冗余特征。讓XTX的行列式不為0,然后繼續使用最小二乘法。

  2,當樣本特征n非常的大的時候,計算XTX的逆矩陣是一個非常耗時的工作(n x n的矩陣求逆),甚至不可行。此時以梯度下降為代表的迭代法仍然可以使用。那這個n到底多大就不適合最小二乘法呢?如果你沒有很多的分布式大數據計算資源,建議超過10000個特征就用迭代法吧。或者通過主成分分析降低特征的維度后再用最小二乘法。

  3,如果擬合函數不是線性的,這時無法使用最小二乘法,需要通過一些技巧轉化為線性才能使用,此時梯度下降仍然可以用。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM