一、BFGS算法

利用Sherman-Morrison公式可對上式進行變換，得到

$B_{k+1}^{-1}=\left ( I-\frac{s_ky_k^T}{y_k^Ts_k} \right )B_k^{-1}\left ( I-\frac{y_ks_k^T}{y_k^Ts_k} \right )+\frac{s_ks_k^T}{y_k^Ts_k}$

令 $H_{k+1}=B_{k+1}^{-1}$ ，則得到：

$H_{k+1}=\left ( I-\frac{s_ky_k^T}{y_k^Ts_k} \right )H_k\left ( I-\frac{y_ks_k^T}{y_k^Ts_k} \right )+\frac{s_ks_k^T}{y_k^Ts_k}$

二、BGFS算法存在的問題

在BFGS算法中。每次都要存儲近似Hesse矩陣 $B_k^{-1}$ ，在高維數據時，存儲 $B_k^{-1}$ 浪費非常多的存儲空間，而在實際的運算過程中。我們須要的是搜索方向。因此出現了L-BFGS算法。是對BFGS算法的一種改進算法。

在L-BFGS算法中。僅僅保存近期的次迭代信息。以減少數據的存儲空間。

三、L-BFGS算法思路

令 $\rho _k=\frac{1}{y_k^Ts_k}$ 。 $V_k=I-\frac{y_ks_k^T}{y_k^Ts_k}$ ，則BFGS算法中的 $H_{k+1}$ 能夠表示為：

$H_{k+1}=V_k^TH_kV_k+\rho _ks_ks_k^T$

若在初始時，假定初始的矩陣，則我們能夠得到：

$H_{1}=V_0^TH_0V_0+\rho _0s_0s_0^T$

$\begin{align*} H_2 &= V_1^TH_1V_1+\rho _1s_1s_1^T\\ &= V_1^T\left ( V_0^TH_0V_0+\rho _0s_0s_0^T \right )V_1+\rho _1s_1s_1^T\\ &= V_1^TV_0^TH_0V_0V_1+V_1^T\rho _0s_0s_0^TV_1+\rho _1s_1s_1^T \end{align*}$

$\cdots$

$\begin{align*} H_{k+1} &= \left ( V_k^TV_{k-1}^T\cdots V_1^TV_0^T \right )H_0\left ( V_0V_1\cdots V_{k-1}V_k \right )\\ &+ \left ( V_k^TV_{k-1}^T\cdots V_1^T \right )\rho _1s_1s_1^T\left ( V_1\cdots V_{k-1}V_k \right )\\ &+ \cdots \\ &+ V_k^T\rho _{k-1}s_{k-1}s_{k-1}^TV_k\\ &+ \rho _ks_ks_k^T \end{align*}$

若此時。僅僅保留近期的步：

$\begin{align*} H_{k+1} &= \left ( V_k^TV_{k-1}^T\cdots V_{k-m}^T \right )H_0\left ( V_{k-m}\cdots V_{k-1}V_k \right )\\ &+ \left ( V_k^TV_{k-1}^T\cdots V_{k-m}^T \right )\rho _1s_1s_1^T\left ( V_{k-m}\cdots V_{k-1}V_k \right )\\ &+ \cdots \\ &+ V_k^T\rho _{k-1}s_{k-1}s_{k-1}^TV_k\\ &+ \rho _ks_ks_k^T \end{align*}$

這樣在L-BFGS算法中。不再保存完整的。而是存儲向量序列 $\left \{ s_k \right \}$ 和 $\left \{ y_k \right \}$ 。須要矩陣時，使用向量序列 $\left \{ s_k \right \}$ 和 $\left \{ y_k \right \}$ 計算就能夠得到。而向量序列 $\left \{ s_k \right \}$ 和 $\left \{ y_k \right \}$ 也不是全部都要保存，僅僅要保存最新的步向量就可以。

四、L-BFGS算法中的方向的計算方法

五、實驗仿真

lbfgs.py

#coding:UTF-8

from numpy import *
from function import *

def lbfgs(fun, gfun, x0):
    result = []#保留終於的結果
    maxk = 500#最大的迭代次數
    rho = 0.55
    sigma = 0.4
    
    H0 = eye(shape(x0)[0])
    
    #s和y用於保存近期m個，這里m取6
    s = []
    y = []
    m = 6
    
    k = 1
    gk = mat(gfun(x0))#計算梯度
    dk = -H0 * gk
    while (k < maxk):             
        n = 0
        mk = 0
        gk = mat(gfun(x0))#計算梯度
        while (n < 20):
            newf = fun(x0 + rho ** n * dk)
            oldf = fun(x0)
            if (newf < oldf + sigma * (rho ** n) * (gk.T * dk)[0, 0]):
                mk = n
                break
            n = n + 1
        
        #LBFGS校正
        x = x0 + rho ** mk * dk
        #print x
        
        #保留m個
        if k > m:
            s.pop(0)
            y.pop(0)
            
        #計算最新的
        sk = x - x0
        yk = gfun(x) - gk
        
        s.append(sk)
        y.append(yk)
        
        #two-loop的過程
        t = len(s)
        qk = gfun(x)
        a = []
        for i in xrange(t):
            alpha = (s[t - i - 1].T * qk) / (y[t - i - 1].T * s[t - i - 1])
            qk = qk - alpha[0, 0] * y[t - i - 1]
            a.append(alpha[0, 0])
        r = H0 * qk
            
        for i in xrange(t):
            beta = (y[i].T * r) / (y[i].T * s[i])
            r = r + s[i] * (a[t - i - 1] - beta[0, 0])

            
        if (yk.T * sk > 0):
            dk = -r            
        
        k = k + 1
        x0 = x
        result.append(fun(x0))
    
    return result

function.py

#coding:UTF-8
'''
Created on 2015年5月19日

@author: zhaozhiyong
'''

from numpy import *

#fun
def fun(x):
    return 100 * (x[0,0] ** 2 - x[1,0]) ** 2 + (x[0,0] - 1) ** 2

#gfun
def gfun(x):
    result = zeros((2, 1))
    result[0, 0] = 400 * x[0,0] * (x[0,0] ** 2 - x[1,0]) + 2 * (x[0,0] - 1)
    result[1, 0] = -200 * (x[0,0] ** 2 - x[1,0])
    return result

testLBFGS.py

#coding:UTF-8
'''
Created on 2015年6月6日

@author: zhaozhiyong
'''

from lbfgs import *

import matplotlib.pyplot as plt  

x0 = mat([[-1.2], [1]])
result = lbfgs(fun, gfun, x0)
print result

n = len(result)
ax = plt.figure().add_subplot(111)
x = arange(0, n, 1)
y = result
ax.plot(x,y)

plt.show()

實驗結果

參考文獻

libLBFGS: a library of Limited-memory Broyden-Fletcher-Goldfarb-Shanno (L-BFGS)

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 最優化算法【牛頓法、擬牛頓法、BFGS算法】牛頓法與擬牛頓法，DFP法，BFGS法，L-BFGS法最優化算法3.2【擬牛頓法-BFGS算法】【原創】牛頓法和擬牛頓法 -- BFGS, L-BFGS, OWL-QN 無約束優化算法——牛頓法與擬牛頓法（DFP，BFGS，LBFGS） Apache Spark源碼走讀之23 -- Spark MLLib中擬牛頓法L-BFGS的源碼實現無約束優化方法(梯度法-牛頓法-BFGS- L-BFGS） L-BFGS算法介紹 L-BFGS算法介紹 L-BFGS算法詳解（邏輯回歸的默認優化算法）