近端梯度算法（Proximal Gradient Descent）

本文轉載自查看原文 2017-04-25 18:06 10731 機器學習

L1正則化是一種常用的獲取稀疏解的手段，同時L1范數也是L0范數的松弛范數。求解L1正則化問題最常用的手段就是通過加速近端梯度算法來實現的。

考慮一個這樣的問題：

　　min_x f(x)+λg(x)

x∈Rⁿ，f(x)∈R，這里f(x)是一個二階可微的凸函數，g(x)是一個凸函數（或許不可導），如上面L1的正則化||x||。

此時，只需要f(x)滿足利普希茨（Lipschitz）連續條件，即對於定義域內所有向量x,y，存在常數M使得||f'(y)-f'(x)||<=M·||y-x||，那么這個模型就可以通過近端梯度算法來進行求解了。

ps：下面涉及很多數學知識，不想了解數學的朋友請跳到結論處，個人理解，所以也不能保證推理很嚴謹，如有問題，請一定幫忙我告訴我。

利普希茨連續條件的幾何意義可以認為是函數在定義域內任何點的梯度都不超過M（梯度有上限），也就是說不會存在梯度為正負無窮大的情況。

因而，我們有下圖所示的推算：

我們可以用f(y) = f(x)+f'(x)(y-x)+M/2*||y-x||²來近似的表示f(y)，也可以認為是高維下的泰勒分解，取到二次項。

我們換一種寫法，f(x_k+1) = f(x_k)+f'(x_k)(x_k+1-x_k)+M/2*||x_k+1-x_k||²，也就是說可以直接迭代求min_x f(x)，就是牛頓法辣。

再換一種寫法，f(x_k+1)=(M/2)(x_k+1-(x_k+(1/M)f'(x_k)))²+CONST，其中CONST是一個與x_k+1無關的常數，也就是說，此時我們可以直接寫出這個條件下x_k+1的最優取值就是x_k+1=x_k+(1/M)f'(x_k)。令z=x_k+(1/M)f'(x_k)。

回到原問題，min_x f(x)+λg(x)，此時問題變為了求解min_x (M/2)||x-z||²+λg(x)。

實際上在求解這個問題的過程中，x的每一個維度上的值是互不影響的，可以看成n個獨立的一維優化問題進行求解，最后組合成一個向量就行。

如果g(x)=||x||₁，就是L1正則化，那么最后的結論可以通過收縮算子來表示。

即x^k+1=shrink(z,λ/M)。具體來說，就是Z向量的每一個維度向原點方向移動λ/M的距離（收縮，很形象），對於x^k+1的第i個維度x_i=sgn(z_i)*max(|z_i|-λ/M,0)，其中sgn()為符號函數，正數為1，負數為-1。

一直迭代直到x^k收斂吧。

參考文獻：

[1]Nesterov Y. Introductory lectures on convex optimization: A basic course[M]. Springer Science & Business Media, 2013.

[2]https://people.eecs.berkeley.edu/~elghaoui/Teaching/EE227A/lecture18.pdf

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 Proximal Gradient Descent for L1 Regularization(近端梯度下降求解L1正則化問題) 梯度下降算法（gradient descent）近端梯度下降(proximal gradient decent) （二）深入梯度下降(Gradient Descent)算法（二）深入梯度下降(Gradient Descent)算法梯度下降（Gradient descent）梯度下降（Gradient Descent）臨近梯度下降算法（Proximal Gradient Method）的推導以及優勢 Proximal Gradient Descent for L1 Regularization 梯度下降算法原理神經網絡（Gradient Descent）