關於ADMM的研究（二）

本文轉載自查看原文 2015-07-09 20:01 3007 調參（轉載）/ 機器學習（轉載）

本節講述的兩個優化問題，是非常常見的優化問題，也非常重要，我認為是ADMM算法通往並行和分布式計算的一個途徑：consensus和sharing，即一致性優化問題與共享優化問題。

Consensus

4.1 全局變量一致性優化（Global variable consensus optimization）（切割數據，參數（變量）維數相同）

所謂全局變量一致性優化問題，即目標函數根據數據分解成

min s . t . \sum i = 1 N f i (x i), x i \in R n x i - z = 0

注意，此時

在ADMM算法框架下（先返回最初從擴增lagrangian導出的ADMM），這種問題解法相當明確：

L ρ (x 1, \dots, x N, z, y) = \sum i = 1 N (f i (x i) + y T i (

⟹ x k + 1 i z k + 1 y k + 1 i = arg min x (f i (x i

對

x k + 1 i y k + 1 i = arg min x (f i (x i) + (y k i) T

這種迭代算法寫出來了，並行化那么就是輕而易舉了，各個子數據分別並行求最小化，然后將各個子數據的解匯集起來求均值，整體更新對偶變量

另外，對於全局一致性優化，也需要給出相應的終止迭代准則，與一般的ADMM類似，看primal和dual的residuals即可

∥ r k ∥ 2 2 = \sum i = 1 N ∥ x k i - x ¯ k ∥ 2 2,

4.2 帶正則項的全局一致性問題

下面就是要將之前所談到的經典的機器學習算法並行化起來。想法很簡單，就是對全局變量加上正則項即可，因此ADMM算法只需要改變下

min s . t . \sum i = 1 N f i (x i) + g (z), x i \in R n x

同樣的，我們仍對

z k + 1 = arg min z (g (z) + (N ρ / 2) ∥ z - x ¯ k + 1 - (1 / ρ)

上述形式都取得是最原始的ADMM形式，簡化處理，寫成scaled形式即有

x k + 1 i z k + 1 u k + 1 i = arg min x (f i (x i)

這樣對於后續處理問題就清晰明了多了。可以看到如果

切割大樣本數據，並行化計算

在經典的統計估計中，我們處理的多半是大樣本低維度的數據，現在則多是是大樣本高維度的數據。對於經典的大樣本低維度數據，如果機器不夠好，那么就抽樣部分數據亦可以實現較好估計，不過如果沒有很好的信息，就是想要對大樣本進行處理，那么切割數據，並行計算是一個好的選擇。現在的社交網絡、網絡日志、無線感應網絡等都可以這么實施。下面的具體模型都在受約束的凸優化問題中以及

有觀測陣

A = ⎛⎝⎜⎜ A 1 ⋮ A N ⎞⎠⎟⎟

於是原來帶正則項的優化問題就可以按照數據分解到多個子系統上去分別優化，然后匯集起來，形成一個global consensus問題。

min s . t . \sum i = 1 N l i (A i x i - b i) + r (z) x i - z

結合受約束的凸優化問題時所給出來的具體的ADMM算法解的形式，下面直接給出這些問題的ADMM迭代算法公式

（1）Lasso

x k + 1 i z k + 1 u k + 1 i = (A T i A i + ρ I)

如果切割的數據量小於維數

（2）Sparse Logistic Regression

x k + 1 i z k + 1 u k + 1 i = arg min x i (l i (

在

（3）SVM

注意分類問題和回歸問題的損失函數不同，一般都是用

x k + 1 i z k + 1 u k + 1 i = arg min x i (1

4.3 一般形式的一致性優化問題（切割參數到各子系統，但各子系統目標函數參數維度不同，可能部分重合）

上述全局一致性優化問題，我們可以看到，所做的處理不過是對數據分塊，然后並行化處理。但是更一般的優化問題是，參數空間也是分塊的，即每個子目標函數

(x i) j = z G (i, j) = z^i

如果對所有

consensus

雖然如果用其他方法來做感覺會復雜，但是納入到上述ADMM框架，其實只不過是全局一致性優化問題的一個局部化變形，不過此時不是對數據進行分塊，是對參數空間進行分塊

min s . t . \sum i = 1 N f i (x i) + g (z), x i \in R n i

后續想做平均化處理，即中間會發生重合的參數

z k + 1 g = \sum G ( i , j ) = g ( ( x k + 1 i ) j + ( 1 / ρ )

該式子表示就是

z k + 1 g = 1 k g \sum G ( i , j ) = g ( x k + 1 i )

同全局一致性優化問題一樣，我們可以加上正則項，然后也可以變成帶正則項的一般形式的一致性優化問題。此處不贅述，與全局基本類似。

與之前的全局變量一致性優化問題類似，共享問題也是一個非常一般而且常見的問題。他的形式如下：

min

這里的第一部分局部損失

min s . t . \sum i = 1 N f i (x i) + g (\sum i = 1 N z i) x

上述形式當然還不夠簡潔，需要進一步化簡。因為

對於

min s . t . g (N z ¯) + (ρ / 2) \sum i = 1 N ∥ z i - a i ∥

當

x k + 1 i z k + 1 u k + 1 = arg min x i (f i (

另外，有證明如果強對偶性存在，那么global consensus問題與sharing問題是可以相互轉化的，可以同時達到最優，兩者存在着很緊密的對偶關系。

本節開頭提過，sharing問題用來切分數據做並行化，也可以切分參數空間做並行化。這對於高維、超高維問題是非常有好處的。因為高維統計中，大樣本是一方面問題，而高維度才是重中之重，如果能切分特征到低緯度中去求解，然后在合並起來，那么這將是一個很美妙的事情。上面利用regularized global consensus問題解決了切分大樣本數據的並行化問題，下面利用sharing思想解決常見的高維數據並行化問題

切割變量（特征）空間，並行化處理

同樣假設面對還是一個觀測陣

A = [A 1, \dots, A N], A i \in R m \times n i, x = (x 1, \dots, x N), x \in

於是正則項也可以切分為

min

這個與sharing問題非常接近了，做點變化那就是sharing問題了

min s . t . l (\sum i = 1 N z i - b) + \sum i = 1 N r i (x i)

與之前的global consensus問題相比，ADMM框架

（1）Lasso

x k + 1 i z ¯ k + 1 u k + 1 = arg min x i (λ

當

（2）Group Lasso 與lasso基本一樣，只是在

x k + 1 i = arg min x i (λ ∥ x i ∥ 2 + (ρ / 2) ∥ A i x i - A i x k

該問題其實就是按組最小化

if

涉及矩陣長短計算時，再看矩陣小技巧。

（3）Sparse Logstic Regression 也與lasso區別不大，只是

z ¯ k + 1 = arg min z ¯ (l (N z ¯) + (ρ / 2) ∥ z ¯ -

（4）SVM

SVM與之前的global consensus時候優化順序反了過來，與logistic rgression只是在

x k + 1 i z ¯ k + 1 u k + 1 = arg min x i (λ

(z ¯ k + 1) i = ⎧⎩⎨⎪⎪ v i - N / ρ, - 1 / N, v i,

（5）Generalized Additive Models

廣義可加模型是一個很適合sharing框架的問題。它本身就是對各個各個特征做了變化后（非參方法），重新表示觀測的方式

b \approx \sum j = 1 n f j (x j)

當

min

其中有

f k + 1 j z ¯ k + 1 u k + 1 = arg min f i \in

最后再說一個經濟學中很重要的sharing問題的特例，即交換問題（exchange problem）：

min s . t . \sum i = 1 N f i (x i) \sum i = 1 N x i = 0, x i

此時共享目標函數

x k + 1 i u k + 1 = arg min x i (f i (x i) + (ρ /

4.4 應用小總結

感覺上通過consensus problem和general consensus problem，我們可以看到並行和分布式部署優化方案的可行性。我們可以切分數據以及相應的目標函數，也可以切分變量到各個子系統上去，分別作優化，甚至我們可以大膽想象對不同類型數據塊用不同的優化算法，結合consensus問題和ADMM算法，達到同一個global variable的優化目的；或者對不同變量在不同類型數據塊上優化，即使有重疊，也可以結合general consensus思想和ADMM算法來解決這個問題。當然前提是能夠定義好需要估計的參數和優化的目標函數！大規模部署的前景還是很不錯的。下面具體分布式統計模型的構建便是ADMM算法非常好的應用。切分數據、切分變量（不過每個子系統的目標函數基本都是一樣的，其實應該可以不同）

5. Nonconvex問題

5.1 變量選擇（Regressor Selection）

5.2 因子模型（Factor Model Fitting）

5.3 雙凸優化（Bi-convex Problem）

非負矩陣分解（Nonnegative Matrix Factorization）

6. 具體實施與實際計算結果

這塊真的很實際，需要明白MPI的機理和Mapreduce、Graphlab等通信運作的機理，這樣才好部署ADMM算法，因為中間有很多迭代，需要做好子節點間參數與整體參數的通信，保持迭代時能同步更新參數。看實際運作，MPI和GraphLab可能更適合這種框架，Hadoop也是可以的，不過畢竟不是為迭代算法所生，要做好需要進行一些優化。Boyd提到Hadoop其中的Hbase更適合這種框架，因為Hbase是一種大表格，帶有時間戳，適合記錄迭代的記錄，這樣就不容易導致分布計算時候搞不清是哪一步的迭代結果了，導致通信調整比較復雜。不過在MapReduce框架下實施ADMM算法是沒有什么問題的，只要熟稔Hadoop的一些細節部分，基本沒有太大問題。

8. 總結

一個好的一般性算法，我個人覺得是易實施，並可大規模應用許多問題。可以讓統計學家卡在搞算法的瓶頸中解放出來，使得他們能快速用模擬，驗證自己構建可能較為復雜的模型。只有當看到一個令人感到欣慰的結果時，那些模型的統計性質的證明才可能是有意義的，如果事先連希望都看不到，那證明起來都可能底氣不足，讓人難以信服，更難以大規模應用統計學家所構建的模型。現在是一個高維數據、海量數據的年代，算法的重要性更會凸顯出來，一個好的模型如果沒有一個有效的算法支撐，那么他將可能什么都不是，Lasso頭幾年所遭遇的冷遇也充分證明了這一點，再比如在沒有計算機年代，Pearson的矩估計應用反而遠多於Fisher的MLE估計方法也是一個道理。好的一般性的解決方案，我想這不管是優化理論，還是統計等其他應用學科，雖然知道沒有最牛最終極的方法，但是能涌現一些大范圍適用的方法，那就是再好不過了。一招鮮吃遍天，人還都是喜歡簡單、安逸愛偷懶的嘛..

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 關於ADMM的研究（一） 08-ADMM算法 [Algorithm]ADMM簡明理解交替方向乘子法（ADMM） ADMM 大規模變量優化對偶上升法到增廣拉格朗日乘子法到ADMM 交替方向乘子法（ADMM）的原理和流程的白話總結 [ML]交替方向乘子法(ADMM)簡明梳理用ADMM求解大型機器學習問題模型驅動的深度學習（ADMM-net）