---恢復內容開始---
http://www.zhihu.com/question/19723347
引自知乎
牛頓法是二階收斂,梯度下降是一階收斂,
所以牛頓法就更快。如果更通俗地說的話,比如你想找一條最短的路徑走到一個盆地的最底部,梯度下降法每次只從你當前所處位置選一個坡度最大的方向走一步,牛頓法在選擇方向時,不僅會考慮坡度是否夠大,還會考慮你走了一步之后,坡度是否會變得更大。所以,可以說牛頓法比梯度下降法看得更遠一點,能更快地走到最底部。
根據wiki上的解釋,從幾何上說,牛頓法就是用一個二次曲面去擬合你當前所處位置的局部曲面,而梯度下降法是用一個平面去擬合當前的局部曲面,通常情況下,二次曲面的擬合會比平面更好,所以牛頓法選擇的下降路徑會更符合真實的最優下降路徑。
wiki上給的圖很形象:
紅色的牛頓法的迭代路徑,綠色的是梯度下降法的迭代路徑。
根據wiki上的解釋,從幾何上說,牛頓法就是用一個二次曲面去擬合你當前所處位置的局部曲面,而梯度下降法是用一個平面去擬合當前的局部曲面,通常情況下,二次曲面的擬合會比平面更好,所以牛頓法選擇的下降路徑會更符合真實的最優下降路徑。
wiki上給的圖很形象:

作者:金秉文
鏈接:http://www.zhihu.com/question/19723347/answer/14636244
來源:知乎
著作權歸作者所有,轉載請聯系作者獲得授權。
1牛頓法起始點不能離局部極小點太遠,否則很可能不會收斂。(考慮到二階擬合應該很容易想象),所以實際操作中會先使用別的方法,比如梯度下降法,使更新的點離最優點比較近,再開始用牛頓法。
2. 牛頓法每次需要更新一個二階矩陣,當維數增加的時候是非常耗內存的,所以實際使用是會用擬牛頓法。
3. 梯度下降法在非常靠近最優點時會有震盪,就是說明明離的很近了,卻很難到達,因為線性的逼近非常容易一個方向過去就過了最優點(因為只能是負梯度方向)。但牛頓法因為是二次收斂就很容易到達了。
牛頓法最明顯快的特點是對於二階函數(考慮多元函數的話要在凸函數的情況下),牛頓法能夠一步到達,非常有效。
2. 牛頓法每次需要更新一個二階矩陣,當維數增加的時候是非常耗內存的,所以實際使用是會用擬牛頓法。
3. 梯度下降法在非常靠近最優點時會有震盪,就是說明明離的很近了,卻很難到達,因為線性的逼近非常容易一個方向過去就過了最優點(因為只能是負梯度方向)。但牛頓法因為是二次收斂就很容易到達了。
牛頓法最明顯快的特點是對於二階函數(考慮多元函數的話要在凸函數的情況下),牛頓法能夠一步到達,非常有效。
作者:劉熙昶
鏈接:http://www.zhihu.com/question/19723347/answer/28414541
來源:知乎
著作權歸作者所有,轉載請聯系作者獲得授權。
最愛麥麗素這篇知乎問答中的一個科普性的全面回答
