Lagrangian 對偶 和 Slater 條件




1.Lagrange函數:


   回憶上節的記號,對於任意一個優化問題(不一定是凸優化問題): \begin{equation}\begin{split}\text{min}\quad \& f_{0}(x) \newline \text{subject to:}\quad \& f_{i}(x)\leq 0, i=1,...,m \newline \& h_{i}(x)=0, i=1,...,p\end{split}\end{equation} 我們可以看到,上述問題的真正難點就在於一組等式和不等式約束條件。所謂"拉格朗日對偶"的基本想法就是通過擴充目標函數,將原有問題中的目標函數$f_{0}$擴充為$f_{0}$以及約束函數的加權和,也就是將約束函數和原始的目標函數一並統一考慮,以達到簡化約束條件的目的。   這時我們可以定義其Lagrange 函數: $$L: D \times\mathbb{R}^{m}\times\mathbb{R}^{p}\rightarrow \mathbb{R},$$ \begin{equation}L(x,\lambda,\nu)=f_{0}(x)+\sum_{i=1}^{m}\lambda_{i}f_{i}(x)+\sum_{i=1}^{p}\nu_{i}h_{i}(x).\end{equation}

這時我們稱\(\lambda_{i}\)為對應於第\(i\)個不等式約束條件\(f_{i}\leq 0\)的拉格朗日乘子,稱\(\nu_{i}\)為對應於第\(i\)個等式約束條件\(h_{i}= 0\)的拉格朗日乘子.


2.Lagrange對偶函數和對偶問題:


  我們定義Lagrange對偶函數:

\[g:\mathbb{R}^{m}\times\mathbb{R}^{p}\longrightarrow \mathbb{R}, \]

\begin{equation}g(\lambda,\nu)=\inf_{x\in D}L(x,\lambda,\nu)\end{equation}

值得注意的是,無論 \(f_{i}\), \(h_{i}\)是否為凸函數,Lagrange 對偶函數\(g\)都將是凹函數。另外,對於任意的\(x\in\mathbb{R}^{n}\)滿足(1)中的約束條件以及\((\lambda,\nu)\in\mathbb{R}^{m}\times\mathbb{R}^{p}\),\(\lambda\succeq 0\)
\begin{split}g(\lambda,\nu)\leq L(x,\lambda,\nu)&=f_{0}(x)+\sum_{i=1}^{m}\lambda_{i}f_{i}(x)+\sum_{i=1}^{p}\nu_{i}h_{i}(x)\newline &\leq f_{0}(x),\end{split}
上式兩邊同時取下確界"\(\inf_{C}\)"我們得到:

\begin{equation}
g(\lambda,\nu)\leq p^{\ast}
\end{equation}

  現在我們考慮如下的優化問題:
\begin{equation}\begin{split}\max\quad & g(\lambda,\nu) \newline \text{subject to:}\quad & \lambda\succeq 0 \end{split}\end{equation}
則我們稱該問題是原始問題(1)的"Lagrange對偶問題",簡稱"對偶問題"

  這時我們設\(q^{\ast}\)為上述問題的最優值,即\(q^{\ast}=\sup_{\lbrace\lambda\succeq 0\rbrace}g(\lambda,\nu)\), 則由(4)可知\(q^{\ast}\leq p^{\ast}\)。我們再令\(d^{\ast}=p^{\ast}-q^{\ast}\), 稱\(d^{\ast}\)為原問題和對偶問題之間的差距(gap). 進一步,如果\(d^{\ast}=0\),我們稱原問題和對偶問題是強對偶的。


3.幾何解釋:


  為了建立一些幾何直覺,我們定義集合:

\begin{equation}\mathcal{G}\triangleq\lbrace (f_{1}(x),...,f_{m}(x),h_{1}(x),...,h_{p}(x),f_{0}(x))\in \mathbb{R}^{m}\times\mathbb{R}^{p}\times\mathbb{R}\mid x\in D \rbrace\end{equation}

這時候很容易知道:

\begin{equation}p^{\ast}=\inf\lbrace t\mid (u,v,t)\in \mathcal{G}, u\preceq 0, v=0\rbrace\end{equation}

對於任意的\(\lambda\in\mathbb{R}^{m}\), \(\nu\in\mathbb{R}^{p}\), \(x\in D\), 過點\(p\triangleq (f_{1}(x),...,f_{m}(x),h_{1}(x),...,h_{p}(x),f_{0}(x))\)與向量\((\lambda,\nu,1)\)垂直的超平面為:

\[\lambda\cdot u+\nu\cdot v+t-L(x,\lambda,\nu)=0 \]

該超平面在\(t\)軸上的截距正好就是Lagrange函數在\((x,\lambda,\nu)\)處的取值!!!

  由以上觀察我們容易得出\(g(\lambda,\nu)\)的幾何意義:

\(g(\lambda,\nu)\)是與\((\lambda,\nu,1)\)垂直且與集合\(\mathcal{G}\)相交的超平面的t-截距的最小值!!!!,

(注意,“最小值”是不嚴謹的說法,其實應該是下確界,但是為了方便理解而這么將錯就錯,畢竟這里我們是形象描述!!!)


  如上圖所示,在這里我們畫出了一個無等式約束條件,二維情形下對應的示意圖。如圖所示,\(g(\lambda)\) 是以\(-t\)為斜率的一條直線在t軸上的截距。可以觀察到該直線要是繼續向下平移的話將不再和\(\mathcal{G}\)相交。同時我們注意到,當\(\lambda\geq 0\)時,\(g(\lambda)<p^{\ast}\),這時\(gap\)嚴格大於零, 這似乎時是因為由於\(\mathcal{G}\)的非凸性並且\(\mathcal{G}\)的右半部分,也就是\(u\geq 0\)部分的最低點比左半部分更低造成的。

  為了研究方便,我們引入“上鏡圖”(Epigrah)的概念。我們定義集合:

\begin{equation}\mathcal{A}=\lbrace p+ (u,0,t)\in \mathbb{R}^{m}\times\mathbb{R}^{p}\times\mathbb{R}\mid p\in \mathcal{G}, u\in \mathbb{R}^{m},u\succeq 0, t\in \mathbb{R}, t\geq 0\rbrace\end{equation}
並稱之為最優化問題(1)的上鏡圖(Epigrah)。容易看出,上鏡圖是由\(\mathcal{G}\)的一系列正向平移所構成。


  如圖所示,我們這里畫出了和上圖情形之下的上鏡圖\(\mathcal{A}\)的示意圖。我們容易驗證如下的性質:

性質1:如果原問題(1)是一個凸優化問題,也就是\(f_{i}\),i=0,..,m均為凸函數,而\(h_{i}\),i=1,...,p均為仿射函數的時候,其上鏡圖\(\mathcal{A}\)是一個凸集。


### 4.Slater條件:
  有了以上的鋪墊,我們可以介紹一個結果,它告訴我們,在什么樣的條件下凸優化問題和其Lagrange對偶問題是強對偶的,也就是什么條件下我們可以將原問題進行轉化。所幸的是,這個條件告訴我們,一般情況下強對偶是成立的,因為該條件很弱。

定理:如果原問題(1)是一個凸優化問題,存在\(\tilde{x}\in \text{relint} D\) 使得:\(f_{i}(\tilde{x})<0\), 對任意的\(i=1,...,m\), 則原問題和對偶問題是強對偶的。

證明
   我們不妨假設仿射函數:
\(h_{i}(x)=\sum_{j=1}^{n}a_{ij}x_{j}+b_{i}\), 且矩陣\(A=(a_{ij})\)滿足\(rank(A)=p\),否則我們可以進一步減少等式約束條件的數量,得到等價的凸優化問題,而\(d^{\ast}\)保持不變。

我們令集合:

\[\mathcal{B}=\lbrace (u,0,t)\in \mathbb{R}^{m}\times\mathbb{R}^{p}\times\mathbb{R}\mid u\preceq 0,t<p^{\ast} \rbrace$$, 此時$\mathcal{B}$與上鏡集$\mathcal{A}$交集為空,它們均為凸集。於是由凸集分離定理,存在超平面分離兩集合,也就是存在着$(\lambda_{0},\nu_{0},t_{0})\neq 0\in\mathbb{R}^{m}\times\mathbb{R}^{p}\times\mathbb{R}$以及$b\in\mathbb{R}$使得: 對任意的$x\in D$, $\xi \in \mathbb{R}_{+}^{m}$和$t\in\mathbb{R}_{+}$: \begin{equation}\sum_{i=1}^{m}\lambda_{0,i}(f_{i}(x)+\xi_{i})+\sum_{i=1}^{p}v_{0,i}h_{i}(x)+t_{0}(f_{0}(x)+t)\geq b\end{equation} 且對任意的$u\in \mathbb{R}^{m}$,$u\preceq 0$, $t<p^{\ast}$: \begin{equation}\lambda_{0}\cdot u+t_{0}t\leq b\end{equation} 由(9)中的任意性我們立即可以知道$\lambda_{0}\succeq 0$,$t_{0}\geq 0$, 這時我們令(10)中$u\rightarrow 0$,$t\rightarrow p^{\ast}$,可以知:$t_{0}p^{\ast}\leq b$,於是我們再結合(9)可知對任意$x\in D$: \begin{equation}\sum_{i=1}^{m}\lambda_{0,i}f_{i}(x)+\sum_{i=1}^{p}v_{0,i}h_{i}(x)+t_{0}f_{0}(x)\geq t_{0}p^{\ast}.\end{equation} 我們注意到,如果這時候$t_{0}>0$則上式兩邊同時除以$t_{0}$我們立即得到對任意的$x\in D$: $$L(x,\lambda_{0}/t_{0},\nu_{0}/t_{0})\geq p^{\ast},\]

這時我們立即得到:
\(g(\lambda_{0}/t_{0},\nu_{0}/t_{0})\geq p^{\ast}\), 於是強對偶成立。

此時我們假設\(t_{0}>0\)不成立,則\(t_{0}=0\),對任意\(x\in D\)
\begin{equation}\sum_{i=1}^{m}\lambda_{0,i}f_{i}(x)+\sum_{i=1}^{p}v_{0,i}h_{i}(x)\geq 0.\end{equation}
這時由於\(\tilde{x}\in \text{relint} D\), 且\(f_{i}(\tilde{x})<0(i=1,...,m)\), 所以存在一個\(x\)\(D\)的仿射閉包中的領域\(U\), \(U\subset D\),且\(f_{i}<0(i=1,...,m)\)在D上恆成立,這時結合\(\lambda_{0,i}\geq 0\)我們立即知道對任意\(x\in U\)
\begin{equation}\sum_{i=1}^{p}v_{0,i}h_{i}(x)\geq -\sum_{i=1}^{m}\lambda_{0,i}f_{i}(x)\geq 0\end{equation}
注意到仿射函數:\(\sum_{i=1}^{p}v_{0,i}h_{i}\)\(\tilde{x}\)處取\(0\),如果它非恆為\(0\),則必然在\(U\)內取值有正有負,所以\(\sum_{i=1}^{p}v_{0,i}h_{i}\)恆為零,由假設\(rank(A)=p\)我們立即得到\(\nu_{0}=0\), 於是:
\begin{equation}\sum_{i=1}^{m}\lambda_{0,i}f_{i}(\tilde{x})\geq 0,\end{equation}
這時由於\(\lambda_{0,i}\geq 0\), \(f_{i}(\tilde{x})<0\), \(i=1,...,m\)我們立即得到\(\lambda_{0}=0\), 這與\((\lambda_{0},\nu_{0},t_{0})\neq 0\)矛盾,於是\(t_{0}\)必然大於0,命題得證。

5.參考文獻:

Stephen Boyd,Lieven Vandenberghe:Convex Optimization,cambridge university press 2004,Cambridge, New York, Melbourne, Madrid, Cape Town, Singapore, S˜ao Paolo, Delhi


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM