近端梯度算法(Proximal Gradient Descent)


L1正則化是一種常用的獲取稀疏解的手段,同時L1范數也是L0范數的松弛范數。求解L1正則化問題最常用的手段就是通過加速近端梯度算法來實現的。

考慮一個這樣的問題:

  minx  f(x)+λg(x)

x∈Rn,f(x)∈R,這里f(x)是一個二階可微的凸函數,g(x)是一個凸函數(或許不可導),如上面L1的正則化||x||。

此時,只需要f(x)滿足利普希茨(Lipschitz)連續條件,即對於定義域內所有向量x,y,存在常數M使得||f'(y)-f'(x)||<=M·||y-x||,那么這個模型就可以通過近端梯度算法來進行求解了。

ps:下面涉及很多數學知識,不想了解數學的朋友請跳到結論處,個人理解,所以也不能保證推理很嚴謹,如有問題,請一定幫忙我告訴我

利普希茨連續條件的幾何意義可以認為是函數在定義域內任何點的梯度都不超過M(梯度有上限),也就是說不會存在梯度為正負無窮大的情況。

因而,我們有下圖所示的推算:

 

我們可以用f(y) = f(x)+f'(x)(y-x)+M/2*||y-x||2來近似的表示f(y),也可以認為是高維下的泰勒分解,取到二次項。

我們換一種寫法,f(xk+1) = f(xk)+f'(xk)(xk+1-xk)+M/2*||xk+1-xk||2,也就是說可以直接迭代求minx f(x),就是牛頓法辣。

再換一種寫法,f(xk+1)=(M/2)(xk+1-(xk+(1/M)f'(xk)))2+CONST,其中CONST是一個與xk+1無關的常數,也就是說,此時我們可以直接寫出這個條件下xk+1的最優取值就是xk+1=xk+(1/M)f'(xk)。令z=xk+(1/M)f'(xk)。

 

回到原問題,minx  f(x)+λg(x),此時問題變為了求解minx  (M/2)||x-z||2+λg(x)。

實際上在求解這個問題的過程中,x的每一個維度上的值是互不影響的,可以看成n個獨立的一維優化問題進行求解,最后組合成一個向量就行。

如果g(x)=||x||1,就是L1正則化,那么最后的結論可以通過收縮算子來表示。

即xk+1=shrink(z,λ/M)。具體來說,就是Z向量的每一個維度向原點方向移動λ/M的距離(收縮,很形象),對於xk+1的第i個維度xi=sgn(zi)*max(|zi|-λ/M,0),其中sgn()為符號函數,正數為1,負數為-1。

一直迭代直到xk收斂吧。

 

 

參考文獻:

[1]Nesterov Y. Introductory lectures on convex optimization: A basic course[M]. Springer Science & Business Media, 2013.

[2]https://people.eecs.berkeley.edu/~elghaoui/Teaching/EE227A/lecture18.pdf


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM