牛頓法

一: 最速下降法
下降法的迭代格式為

, 其中

這里要注意的是, 最速下降方向只是算法的局部性質. 對於許多問題, 最速下降法並非”最速下降”, 而是下降非常緩慢. 數值試驗表明, 當目標函數的等值線接近於一個圓(球)時, 最速下降法下降較快, 而當目標函數的等值線是一個扁長的橢圓時, 最速下降法開始幾步下降較快, 后來就出現鋸齒現象, 下降就十分緩慢. 其原因是這樣的, 由於一維搜索滿足

. 表明在相鄰兩個迭代點上函數的兩個梯度方向是互相直交的, 這就產生了鋸齒形狀, 當接近極小點時, 步長越小, 前進越慢.
當目標函數是二次函數時, 最速下降法的收斂速度由對應於某個等值線的橢球的最長軸與最短軸之比決定. 這個比值越大, 最速下降法下降越慢.

二: 牛頓法
牛頓法的基本思想是利用目標函數的二次Taylor展開, 並將其極小化. 也可以想成是一個一點二次插值法進行局部擬合.

帶步長因子的牛頓法, 算法如下:
Step1: 選取初始數據, 取初始化點

不定時, 二次模型函數是無界的. 為了克服這些困難, 人們提出了很多修正措施.

[參考] 1. <最優化理論與方法>袁亞湘院士著.

擬牛頓法

牛頓法成功的關鍵是利用了Hesse矩陣提供的曲率信息, 而計算Hesse矩陣工作量大, 並且有的目標函數的Hesse矩陣很難計算, 甚至不好求出來, 這就導致僅用目標函數的一階導數的方法, 擬牛頓法就是利用目標函數值和一階導數信息, 構造出目標函數的曲率近似, 而不需要明顯形成Hesse矩陣, 同時具有收斂速度快的優點.

一: 擬牛頓法條件
目標函數

在

f (x) \approx f (x k + 1) + g T k + 1 (x -

H k + 1 y k = s k

次乘法)

二: DFP校正(Davidon-Fletcher-Powell)
利用Hesse逆近似方法構造

H k + 1 = H k + s k

DFP方法是一個實際上廣為采用的方法, 它在理論分析和實際應用中都起了很大作用. 但是, 進一步的研究發現, DFP方法具有數值不穩定性, 有時產生數值上奇異的Hesse近似. 而BFGS校正克服了DFP校正的缺陷.

三: BFGS校正(Broyden-Fletcher-Goldfarb-Shanno)
利用Hesse近似方法構造

B k + 1 = B k + y k

BFGS校正是迄今最好的擬牛頓公式. 它具有DFP校正所具有的各種性質. 此外, 當采用不精確線性搜索時, BFGS公式還具有總體收斂性質, 這個性質對於DFP公式還沒有證明. 在數值執行中, BFGS公式也優於DFP公式, 尤其是它常常能與低精度線性搜索方法一起連用.

[參考] 1. <最優化理論與方法>.袁亞湘院士著.
2.<統計學習方法>.李航著

共軛梯度法

一: 共軛方向法
共軛方向法是介於最速下降法與牛頓法之間的一個方法, 它僅需利用一階導數信息, 但克服了最速下降法收斂慢的缺點, 又避免了存儲和計算牛頓法所需要的二階導數信息. 共軛方向法是從研究二次函數的極小化產生的, 但是它可以推廣到處理非二次函數的極小化問題. 最典型的共軛方向法是共軛梯度法. 而擬牛頓法也是共軛方向法的一種.

共軛方向的概念是這么定義的: 設

是

, 即是正交向量組. 因而共軛概念是正交概念的推廣. 但要注意, 正交的向量不一定共軛, 共軛的向量不一定正交, 有時, 可能既共軛又正交.

為什么要引入共軛向量組呢, 因為它有如下重要的性質:
1). 若

步精確線性搜索可達到整體最優解.

通常, 我們把從任意點出發, 依次沿某組共軛方向進行一維搜索求解的方法, 叫做共軛方向法. 由於共軛方向組的取法有很大的隨意性, 用不同方式產生一組共軛方向就得到不同的共軛方向法. 如果利用迭代點處的負梯度向量為基礎產生一組共軛方向, 這樣的方法叫做共軛梯度法.

二: 共軛梯度法
為了滿足共軛方向組的定義, 我們可以推出這樣一組迭代公式:

⎧ ⎩ ⎨ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ d 0 = -

⎧ ⎩ ⎨ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ d 0 = -

, 即算法有自動再開始的趨勢, 這樣有利於克服進展緩慢的缺點. 一些實驗結果表明, 對一些大型問題, P-R-P公式效果較好. 然而1984年Powell M J D提出了反例來說明在存在某些問題, P-R-P法不收斂, 而F-R法具有全局收斂性.

在實踐中證明十分有效的無約束最優化方法, 除了共軛梯度法以外, 還有變尺度算法. 它們的結構原理都是基於二次函數模型產生下降方向, 然后由線性搜索選擇在該方向上的步長. 變尺度算法也是一類方法的總稱, 使用比較普遍的有DFP方法和BFGS方法, 這些方法是相當於迭代的每一輪的度量是變化的最速下降法, 因而得此名. 數值實驗指出, BFGS算法是最好的變尺度算法, 當變量個數不超過100時, 通常BFGS法比共軛梯度法效果好. 但對於變量個數超過100的大規模無約束游湖問題, 共軛梯度法因其不要太大的存儲量而更具優勢.

信賴域法是目前正在發展中的一種無約束最優化方法. 它是針對共軛梯度法和變尺度法的缺點設計的.

[參考] 1. <最優化理論與方法>.袁亞湘院士著.
2.<運籌學>.習在筠等著

from: http://jacoxu.com/?p=240

http://jacoxu.com/?p=245

http://jacoxu.com/?p=242

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 優化方法總結：梯度下降法、牛頓法、擬牛頓法、共軛梯度法等等常見的幾種最優化方法（梯度下降法、牛頓法、擬牛頓法、共軛梯度法等）牛頓法和擬牛頓法梯度下降法，牛頓法，擬牛頓法區別【機器學習之數學】02 梯度下降法、最速下降法、牛頓法、共軛方向法、擬牛頓法 matlab實現共軛梯度法、多元牛頓法、broyden方法擬牛頓法分析與推導擬牛頓法（Python實現）牛頓法、擬牛頓法、阻尼牛頓法、修正牛頓法 Logistic回歸的牛頓法及DFP、BFGS擬牛頓法求解