數值優化（Numerical Optimization）學習系列-無梯度優化（Derivative-Free Optimization）

本文轉載自查看原文 2019-09-09 19:04 375 數據挖掘

數值優化（Numerical Optimization）學習系列-無梯度優化（Derivative-Free Optimization）

2015年12月27日 18:51:19 下一步閱讀數 4357更多

分類專欄：數值優化

本文鏈接： https://blog.csdn.net/fangqingan_java/article/details/48946903

概述

在實際應用中，有些目標函數的梯度不容易計算，即使使用有限差分等近似算法，也會因為噪聲的存在導致結果不精確。無梯度優化算法（DFO-Derivative-Free Optimization）可以在不計算梯度的情況下進行問題的最優化，主要有兩類思路，一是根據目標函數的樣本進行擬合，對擬合函數進行最優化；二是用一些啟發式算法。
1. 有限差分和誤差
2. 基於模型近似的方法
3. 坐標和模式搜索方法
4. 其他DFO方法
5. 總結

有限差分和誤差

有限差分方法在某些情況下可能會有一定的誤差，例如如果函數值需要通過隨機試驗進行模擬，此時會引入人為誤差或者儀器誤差。
因此對問題進行建模時，將誤差引入目標函數中，然后利用有限差分和梯度相關算法進行優化。

f (x) = h (x) + ϕ (x)

其中函數h表示某平滑函數，

ϕ

對誤差進行建模后，然后利用中心有限差分方法，進行梯度的計算

\partial f \partial x i \approx f ( x + ϵ e i ) - f ( x - ϵ e i ) 2 ϵ

噪聲水平（Noise Level）定義為：
在x附近噪聲最大值。 $η (x; ϕ) = s u p_{| | z - x | | \leq ϵ} | ϕ (z) |$

此時使用有限差分方法，近似誤差來源於固有誤差和噪聲誤差。

基於模型的方法

主要思路是，在第k步迭代時，基於該點進行模型近似，通過采樣推導出模型中的參數，基於該模型進行最優化計算。

二次模型近似

在第k步迭代時，構建一個二次模型進行近似

m k (x k + p) = c + g T p + 1 2 p T G p

ϕ

在實際應用中，我們僅需要更新模型M即可，不用每次都重新計算。可以選擇合適方便計算的基函數。

算法過程如下
這里寫圖片描述

算法過程如下
1. 構建插值集合 $Y = y^{1}, y^{2} . . . y^{q}$

二次模型的缺點：樣本點選擇是O(n^2)的，如果維度越高計算復雜度越大。因此可以考慮線性模型，此時只有O(n+1)個樣本需要求解，復雜度會降低。

坐標和模式搜索方法

不同於梯度相關的算法，基於模式搜索方法的搜索方向都是事先確定好的，該方法需要從方向集合中選擇一個下降方向作為搜索方向並且更新該方向集合，之后利用線搜索決定步長，逐步迭代得到最優解。
坐標下降是模式搜索方法中的一個特例。

坐標搜索方法（Coordinate SearchMethod）

該方法也稱之為坐標下降法或者變量交替方法，主要思路是依次沿着坐標軸方向進行線搜索。
詳細過程如下
1. 選擇某個迭代點x=(x1,x2…xn)，固定x2…xn，優化x1使得目標函數最小
2. i=2..n 優化x_i使得目標函數最小
3. 重復以上步驟
對於二維情況下，搜索過程如下
這里寫圖片描述

從上圖中可以看出，對於條件數比較大的問題，收斂速度非常低。

實際中，如果沿着線性獨立的搜索方向搜索，可能不能保證收斂。但是優點是不需要計算梯度，並且對於變量松耦合的情況下，收斂速度可以接受。

另外為了進行優化，搜索方向可以選擇為{ $e_{1}, e_{2} . . . e_{n}, e_{n - 1} . . . e_{1}$

模式搜索方法

每次搜索方向都是從一個“結構集”中選取，找到某個下降點，進行線搜索，否則修改步長，重復該過程。
該方法會受到噪聲點、函數值不精確、不平滑的影響。算法過程如下這里寫圖片描述
算法描述如下
定義
* $D_{k}$

初始化搜索方向集合 $D_{0}$

有理論保證如果搜索方向滿足一下條件，則一定能保證收斂。 $κ (D k) = min v \in R n max p \in D k v T p | | v |$ $β m i n \leq | | p | | \leq β m a x$

條件1說明需要保證最少有一個搜索方向和最優方向的夾角小於90，即cos( $θ$

條件2說明搜索方向的模不能相差太大，因此搜索步長統一進行縮放。

滿足條件的搜索方向有 { $e_{1}, e_{2} . . . e_{n}, - e_{1} . . . - e_{n}$

遞增函數可以選擇為 $ρ (t) = M t^{3 / 2}$

其他DFO算法

共軛方向算法

類似於共軛梯度方法，該方法的目標是最優化

f (x) = 1 2 x T A x - b T x

ϕ

Parallel subspace property

通過該方法可以找到一系列共軛方向，並且沿着該方向可以得到最優解，以二維情況為例
這里寫圖片描述
如上圖如果直線l1和l2平行，並且x1*和x2*是目標函數沿着該直線的最優解，則x1*-x2*共軛於直線的法向量。
因此只要沿着某兩個平行子空間尋找最優解，則最優解的差就共軛於該平面的法向量。
假設{ $p_{1}, p_{2} . . . p_{l}$

s 1 = {x 1 + \sum i = 1.. l α i p i}

s 2 = {x 2 + \sum i = 1.. l α i p i}

ϕ

證明很簡單
由於x1*是最優解，則有

\partial f ( x * 1 + α i p i ) \partial α i = \partial f ( x * 1 + α i p i ) p i

ϕ

0 = (\nabla f (x * 1) - \nabla f (x * 2)) p i = (A x 1 - b - A x 2 + b) p i = (x

ϕ

Nelder-Mead 方法

也叫做Nelder-Mead simplex reflection方法。
保存n+1個點，並且這些點構成一個單純性，在每次循環中搜索使得函數值最低的點，去掉后，用其他更好的點替代。

Implicit Filtering方法

對比於帶有噪聲的有限微分方法，適用於noise level隨着迭代減小的情形。

總結

通過該小結的學習，可以了解到
1. 對於梯度不可求的復雜函數，可以通過DFO的方式進行優化
2. 通過隨機試驗估計函數值的最優化問題，可以考慮帶噪聲的有限差分。
3. 了解基於模型的方法，但是復雜度可能會比較大
4. 了解坐標下降法和模式搜索算法
5. 了解基於共軛方向等其他方法。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 [轉] 數值優化（Numerical Optimization）學習系列-目錄機器學習模型優化 ---- Model Optimization 優化算法(Optimization algorithms) 凸優化(Convex Optimization)淺析深度學習優化理論綜述——Optimization for deep learning: theory and algorithms 粒子群優化算法（Particle Swarm Optimization）在線最優化求解(Online Optimization)之五：FTRL keil優化等級說明 keil code optimization prefetch & preload & prerender & performance optimization 性能優化凸優化簡介 Convex Optimization Overview