關於ADMM的研究（一）

本文轉載自查看原文 2015-07-09 20:00 12098 調參（轉載）/ 機器學習（轉載）

最近在研究正則化框架如何應用在大數據平台上。找到了《Distributed Optimization and Statistical Learning via the Alternating Direction Method of Multipliers》這篇文章，感覺很適合現在的研究。下面轉載的一篇博客，寫的很細致，很有用。

業界一直在談論大數據，對於統計而言，大數據其實意味着要不是樣本量增加

本文是基於Stephen Boyd 2011年的文章《Distributed Optimization and Statistical Learning via the Alternating Direction Method of Multipliers》進行的翻譯和總結。Boyd也給出了利用matlab的CVX包實現的多種優化問題的matlab示例。

1. 優化的一些基本算法思想

ADMM算法並不是一個很新的算法，他只是整合許多不少經典優化思路，然后結合現代統計學習所遇到的問題，提出了一個比較一般的比較好實施的分布式計算框架。因此必須先要了解一些基本算法思想。

1.1 Dual Ascent

對於凸函數的優化問題，對偶上升法核心思想就是引入一個對偶變量，然后利用交替優化的思路，使得兩者同時達到optimal。一個凸函數的對偶函數其實就是原凸函數的一個下界，因此可以證明一個較好的性質：在強對偶性假設下，即最小化原凸函數（primal）等價於最大化對偶函數（dual），兩者會同時達到optimal。這種轉化可以將原來很多的參數約束條件變得少了很多，以利於做優化。具體表述如下：

min s . t . f (x) A x = b ⟹ L (x, y) = f (x) + y T (A x - b) ⟹

在強對偶性的假設下，primal和dual問題同時達到最優。

x ⋆ = arg min x L (x, y ⋆)

因此，若對偶函數

x k + 1 : y k + 1 : = arg min x L (x, y k)

當

1.2 Dual Decomposition

雖然dual ascent方法有缺陷，要求有些嚴格，但是他有一個非常好的性質，當目標函數

min s . t . f (x) = \sum i = 1 N f i (x i), x i \in R n i

因此可以看到其實下面在迭代優化時，

x k + 1 i : y k + 1 : = arg min x L i (x i, y k)

對偶分解是非常經典的優化方法，可追溯到1960年代。但是這種想法對后面的分布式優化方法影響較大，比如近期的graph-structure優化問題。

1.3 Augmented Lagrangians and the Method of Multipliers

從上面可以看到dual ascent方法對於目標函數要求比較苛刻，為了放松假設條件，同時比較好優化，於是就有了Augmented Lagrangians方法，目的就是放松對於

L ρ (x, y) = f (x) + y T (A x - b) + ρ 2 ∥ A x - b ∥ 2 2 ⟹ min s

從上面可以看到該問題等價於最初的問題，因為只要是可行解對目標函數就沒有影響。但是加了后面的(ρ/2)∥Ax−b∥22懲罰項的好處是使得對偶函數gρ(y)=infxLρ(x,y)在更一般的條件下可導。計算過程與之前的dual ascent基本一樣，除了最小化

x k + 1 y k + 1 = arg min x L ρ (x, y k) = y k + ρ

上述也稱作method of multipliers，可能也是因為更新對偶變量

雖然Augmented Lagrangians方法有優勢，但也破壞了dual ascent方法的利用分解參數來並行的優勢。當

2. Alternating Direction Method of Multipliers(ADMM)

2.1 ADMM算法概述

為了整合dual ascent可分解性與method multiplers優秀的收斂性質，人們就又提出了改進形式的優化ADMM。目的就是想能分解原函數和擴增函數，以便於在對

min s . t . f (x) + g (z) A x + B z = c ⟹ L ρ (x, z, y) = f (x

從上面形式確實可以看出，他的思想確實就是想把primal變量、目標函數拆分，但是不再像dual ascent方法那樣，將拆分開的

x k + 1 z k + 1 y k + 1 = arg min x L ρ (x, z k

后面我們可以看到這種拆分思想非常適合統計學習中的

為了簡化形式，ADMM有一個scaled form形式，其實就是對對偶變量做了scaled處理。先定義每一步更新的殘差為

y T (A x + B z - c) + (ρ / 2) ∥ A x + B z - c ∥ 2 2 = y T r +

此處

x k + 1 z k + 1 u k + 1 = arg min x L ρ (x, z k

寫成這種形式有利於后面簡化優化問題，當然可以不作任何處理。

2.2 ADMM算法性質和評價

（1）收斂性

關於收斂性，需要有兩個假設條件：

擴增的lagrangian函數

在此兩個假設下，可以保證殘差、目標函數、對偶變量的收斂性。

Note：實際應用而言，ADMM收斂速度是很慢的，類似於共軛梯度方法。迭代數十次后只可以得到一個acceptable的結果，與快速的高精度算法（Newton法，內點法等）相比收斂就慢很多了。因此實際應用的時候，其實會將ADMM與其他高精度算法結合起來，這樣從一個acceptable的結果變得在預期時間內可以達到較高收斂精度。不過一般在大規模應用問題中，高精度的參數解對於預測效果沒有很大的提高，因此實際應用中，短時間內一個acceptable的結果基本就可以直接應用預測了。

（2）停止准則

對於ADMM的能到到optimal的條件此處就不做贅述了，與基本的primal和dual feasibility 的條件差不多，即各primal variable的偏導和約束條件為0，從最優條件中可以得到所謂的對偶殘差（dual residuals）和初始殘差（primal residuals）形式：

s k + 1 r k + 1 = ρ A T B (z k + 1 - z k)

相對而言，此處更難把握的其實是停止准則，因為收斂速度問題，要想獲得一個還過得去可以拿來用的參數解，那么判斷迭代停止還是比較重要的。實際應用中，一般都根據primal residuals和dual residuals足夠小來停止迭代，閾值包含了絕對容忍度（absolute tolerance）和相對容忍度（relative tolerance），設置還是非常靈活和難把握的（貌似網上有不少人吐槽這個停止准則的不靠譜- -！），具體形式如下：

∥ s k ∥ 2 \leq ϵ dual ∥ r k ∥ 2 \leq ϵ pri = n\sqrt ϵ abs + ϵ

上面的

另外一些細節問題，比如原來懲罰參數

2.3 ADMM一般形式與部分具體應用

當構造了ADMM算法中的

二次目標優化項（quadratic objective terms）；
可分的目標函數和約束（separable objective and constraints）；
光滑目標函數項（smooth objective terms）。

為下面討論的方便，下面僅寫出

x + = arg min x (f (x) + (ρ / 2) ∥ A x - v ∥ 2 2), v = - B z + c - u

上述更新

Proximity Operator（近鄰算子）

上述形式有種特殊情況：當

x + = arg min x (f (x) + (ρ / 2) ∥ x - v ∥ 2 2), v = - B z + c - u

上述右邊可以寫成

x + = arg min x (f (x) + (ρ / 2) ∥ x - v ∥ 2 2) = Π C (v)

投影與懲罰參數

下面再談談上述提到的三種一般形式的優化問題。

（1）Quadratic Objective Terms

假設

f (x) = 1 2 x T P x + q T x + r

x + = (P + ρ A T A) - 1 (ρ A T v - q)

因此在

(P + ρ A T A) - 1 = P - 1 - ρ P - 1 A T (I + ρ A P - 1 A T

如果對於上述二次函數受限於某仿射集

f (x) = 1 2 x T P x + q T x + r

(P + ρ I F F T 0) (x k + 1 v) + (q - ρ (

（2）Smooth Objective Terms

當

早終止（early termination）：當
熱啟動（warm start）：即啟動迭代時，利用之前迭代過的值帶入即可。

（3）Separable objective and constraints 可分函數和約束對於並行計算和分布式計算來說是一個好消息。如果

當

x + = arg min x (λ ∥ x i ∥ + (ρ / 2) ∥ x - v ∥ 2 2)

這種形式很常見在目前的高維統計中，雖然第一項在0處不可導，但是也有解析解，被稱作軟閾值（soft thresholding），也被稱作壓縮算子（shrinkage operator）。

x + i = S λ / ρ (v i), \to S k (a) = ⎧⎩⎨⎪⎪ a - k 0, a + k

在優化領域，軟閾值被稱作是

3. 一些具體優化應用

3.1受約束的凸優化問題

一般的受約束的凸優化問題可以寫成如下形式

min s . t f (x) x \in C

此類問題可以寫成ADMM形式

min s . t f (x) + g (z) x - z = 0 ⟹ L ρ (x, z, u) = f (x) + g

其中的

x k + 1 z k + 1 u k + 1 = arg min (f (x) + (ρ / 2)

則上述

min s . t 1 2 x T P x + q T x A x = b , x \geq 0

寫成ADMM形式

min s . t f (x) + g (z) x - z = 0 ⟹ f (x) g (z) = 1

即受約束的區域就是{x∣x≥0}，

如果上述對

雖然我對優化不在行，但是感覺優化問題還是挺有意思的，下面是一個經典問題，即找到兩個非空凸包的交集中的一點。該算法都可以追溯到1930年代的Neumann交替投影算法（alternating projections algorithm）：

x k + 1 z k + 1 = Π C (z k) = Π D (x

ΠC,ΠD分別是兩個集合的歐式空間投影。寫成ADMM形式就是

x k + 1 z k + 1 u k + 1 = Π C (z k - u k)

上述問題還可推廣至找到

x k + 1 i z k + 1 u k + 1 i = Π A i (z k -

3.2

高維統計理論的發展，如果要追溯起來我覺得可以從Lasso解法算起，類似的思想在往前追可能是Huber相關的工作。是對於lasso問題，由於當年大家還沒搞清楚lasso和boosting之間關系，對於sparsity性質不了解，誰也不知道如何很好地解決這個問題。直到后面Efron提出了LARS算法，對兩者的路徑解相似性做了很好的闡述，於是后面關於變量選擇，關於basis-pursuit，compressed sensing，sparse graphical models等各種新問題的產生，隨后各種優化算法也隨之涌現出來，諸如Gradient Projection， Proximal methods，ADMM (Alternating Direction Method of Multipliers)， (Split) Bregman methods，Nesterov’s method。不過要能夠大規模部署

之所以說ADMM適合機器學習和統計學習的優化問題，因為大部分機器學習問題基本都是“損失函數+正則項”形式，這種分法恰好可以套用到ADMM的框架

（1）Least Absolute Deviations

先從一個簡單的問題開始。在穩健估計中，LAD是一個應用很廣的模型，相對於直接優化平方和損失

min s . t . ∥ z ∥ 1 A x - b = z ⟹ let

（2）Huber fitting

Huber問題與上面的其實差不多，只是損失函數形式不同，換成了Huber懲罰函數

min s . t . g h u b (z) A x - b = z,

因此與LAD除了

z k + 1 = ρ 1 + ρ ( A x k + 1 - b + u k ) + 1 1 + ρ S 1 + 1

看着像是proximity operator與一個殘差的加權。

LAD和Huber fitting這種問題只是一些傳統損失不加正則項的ADMM化，注意一定要構造個

（3）Basis Pursuit

基追蹤法師系數信號處理的一種重要方法。目的是想找到一組稀疏基可以完美恢復信號，換套話說就是為一個線性方程系統找到一個稀疏解。原始形式如下，與lasso有些像：

min s . t . ∥ x ∥ 1 A x = b

修改成ADMM形式，注意往之前受約束的凸優化問題的那種形式回套，將

min s . t . f (x) + ∥ z ∥ 1 x - z = 0

其中

x k + 1 = (I - A T (A T A) - 1 A) (z - u k) + A T (A A T)

對於矩陣求逆、分解等用之前矩陣那些小技巧即可加快計算，節省計算資源。

最近還有一類算法來解決

（4）一般化的損失函數 +

這類問題在高維統計開始時便是一個非常重要的問題，而即使到了現在也是一個非常重要的問題，比如group lasso，generalized lasso，高斯圖模型，Tensor型圖模型，與圖相關的

min

可以看到與Basis Pursuit解法只是在

Lasso：
Generalized lasso：這個問題可能不是那么為眾人所熟悉，他是Tibs的兒子搞出來的框羅類似fused lasso這種事先定義好的線性變化的懲罰項的模型，損失函數是平方損失，而懲罰變成了一個特殊的參數線性組合

min12∥Ax−b∥22+λ∥Fx∥1 ⟹1d fused lasso,A=IFij=⎧⎩⎨⎪⎪1−10j=i+1j=iotherwise

⟹ min 1 2 ∥ x - b ∥ 2 2 + λ \sum i = 1 n - 1 | x i + 1 - x i | ⟹ A = I

若將上述這種寫成ADMM形式，同樣可以放到ADMM算法框架中解決

min s . t . 1 2 ∥ A x - b ∥ 2 2 + λ ∥ z ∥ 1 F x - z = 0 ⟹ x

Group lasso：graph lasso問題應用比較廣，對不同組的參數同時進行懲罰，進行一組組參數的挑選，故曰group lasso。不同於lasso，其正則項變成了

z k + 1 i = S λ / r h o (x k + 1 i + u k), i = 1, \dots, N ⟹ S

這種形式還可以擴展到group間有重合的情況，即化成

min s . t . 1 2 ∥ A z - b ∥ 2 2 + λ \sum i = 1 N ∥ x i ∥ 2 , x i \in

Sparse Gaussian graph model：對於稀疏高斯圖，熟悉該問題的人知道這其實是lasso的圖上的推廣，損失函數寫成似然函數的負數即可l(x)=tr(SX)−logdetX,X∈Sn++。於是原來向量的操作就變成了矩陣操作，ADMM算法也有點變化：

X k + 1 Z k + 1 U k + 1 = arg min X (tr (S X) - log

上述算法繼續化簡，對於

ρX−X−1=ρ(Zk−Uk)−S=QΛQT,QQT=I,Λ=diag(λ1,…,λn) →ρX^−X^−1=Λ,X^=QTXQ

由於

X^i i = λ i + λ 2 i + 4 ρ------\sqrt 2 ρ ⟹ X = Q X ^ Q T

總之，上述跟

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 關於ADMM的研究（二） 08-ADMM算法 [Algorithm]ADMM簡明理解交替方向乘子法（ADMM） ADMM 大規模變量優化對偶上升法到增廣拉格朗日乘子法到ADMM 交替方向乘子法（ADMM）的原理和流程的白話總結 [ML]交替方向乘子法(ADMM)簡明梳理用ADMM求解大型機器學習問題模型驅動的深度學習（ADMM-net）