一些矩陣范數的subgradients


《Subgradients》
Subderivate-wiki
Subgradient method-wiki
《Subgradient method》
Subgradient-Prof.S.Boyd,EE364b,StanfordUniversity
《Characterization of the Subdifferential of Some Matrix Norms 》

這篇文章主要參考:

《Characterization of the Subdifferential of Some Matrix Norms 》

矩陣\(A \in \mathbb{R}^{m\times n}\)\(\|\cdot\|\)為矩陣范數,注意這里我們並沒有限定為何種范數。那么\(\|A\|\)的次梯度可以用下式表示:

\[\partial \|A\| = \{G \in \mathbb{R}^{m\times n}|\|B\| > \|A\| +\mathrm{trace}[(B-A)^TG],all \: B \in \mathbb{R}^{m \times n} \} \]

這個定義和之前提到的定義是相一致的,事實上,\(\mathrm{trace}(A^TB)\)就相當於將\(A\)\(B\)拉成倆個長向量作內積,比較實質就是對應元素相乘再相加。

\(G \in \partial \|A\|\)等價於:
在這里插入圖片描述
在我看的書里面,對偶范數一般用\(\|\cdot\|_*\)表示,且是如此定義的:

\[\|z\|_* = \sup \{z^Tx| \|x\| \le 1\} \]

因為下面還有很多地方是采取截圖的形式展示的,所以還是沿襲論文的符號比較好,這里只是簡單提一下。
至於為什么等價,論文里面沒有提,我只能證明,滿足那倆點條件的\(G\)\(\|A\|\)的次梯度,而不能證明所有次梯度都滿足那倆個條件。
證明如下:
假設\(G\)滿足上面的條件,那么:

\[\mathrm{trace}[(B-A)^TG]=-\|A\|+\mathrm{trace}(B^TG) \\ \Rightarrow \|A\| + \mathrm{trace}[(B-A)^TG] = \mathrm{trace}(B^TG) \]

\[\mathrm{trace}(\frac{B^T}{\|B\|}G) \le 1=\frac{\|B\|}{\|B\|} \]

所以

\[\|B\|\ge \|A\| + \mathrm{trace}[(B-A)^TG] \]

所以\(G \in \partial \|A\|\)'
不好意思,我想到怎么證明啦!下證,\(G \in \partial \|A\|\)必定滿足上述的條件,我們先說明范數的一些性質:
齊次:\(\|tA\|=|t|\|A\|\)
三角不等式:\(\|A+B\| \le \|A\|+\|B\|\)
既然對所有\(B \in \mathbb{R}^{m \times n}\)成立:

\[\|B\| \ge \|A\| + \mathrm{trace}[(B-A)^TG] \]

\(B=1/2A\),可得:

\[\mathrm{trace}(A^TG) \ge \|A\| \]

\[\|A+B\| \le \|A\| + \|B\| \le \|A+B\|-\mathrm{trace}[B^TG]+\|B\| \\ \Rightarrow \mathrm{trace}(B^TG)\le \|B\| \]

所以:

\[\|A\| \le \mathrm{trace}(A^TG) \le \|A\| \Rightarrow \mathrm{trace}(A^TG)=\|A\| \]

到此第一個條件得證。
又:

\[\mathrm{trace}(B^TG)\le \|B\| \Rightarrow \mathrm{trace}(\frac{B^T}{\|B\|}G) = \|G\|^*\le 1 \]

第二個條件也得證。漂亮!

正交不變范數

正交不變范數定義如下:

\[\|UAV\| = \|A\| \]

其中\(U,V\)為任意正交矩陣(原文是\(\|UVA\|=\|A\|\),我認為是作者的筆誤)。
注意,如果范數\(\|\cdot\|\)是正交不變的,那么其對偶范數同樣是正交不變的,證明如下:
既然:

\[\|Z\|^*=\sup \{\mathrm{trace}(Z^TX)|\|X\|\le1 \} \]

\[\|UZV\|^*=\sup \{\mathrm{trace}(V^TZ^TU^TX)|\|X\|\le1 \} \]

\(UXV\)替代\(X\)代入即可得:

\[\begin{array}{ll} \|UZV\|^*&=\sup \{\mathrm{trace}(V^TZ^TU^TX)|\|X\|\le1 \}\\ &=\sup \{\mathrm{trace}(V^TZ^TU^TUXV)|\|UXV\|\le1 \}\\ &= \sup \{\mathrm{trace}(Z^TX)|\|X\|\le1 \}\\ &= \|Z\|^* \end{array} \]

最后第二個等式成立根據跡的性質和\(\|\cdot\|\)的題設。

我們假設矩陣\(A\)的SVD分解為:

\[A = U\Sigma V^T \]

其中\(\Sigma \in \mathbb{R}^{m \times n}\)為對角矩陣(那種歪歪的對角矩陣),\(U\)\(V\)的列我們用\(u_i,v_i\)來表示。
假設其奇異值:

\[\sigma_1\le \sigma_2 \le \ldots \le \sigma_n \]

降序排列。
所有這樣的(正交不變?)范數都能用下式來定義:

\[\|A\| = \phi(\sigma) \]

其中\(\sigma = (\sigma_1, \ldots, \sigma_n)^T\),\(\phi\)是一個對稱規范函數(symmetirc gague function),滿足:
在這里插入圖片描述
上面這個東西我也證明不了,不過至少譜范數和核函數的確是這樣的。

\(\phi\)的對偶可以用下式來表示:

\[\phi^*= \max \limits_{\phi(y)=1} x^Ty \]

而且其次梯度更矩陣范數又有相似的一個性質:
在這里插入圖片描述
證明是類似的,不多贅述。

一種常見的正交不變范數可由下式定義:

\[\|A\| = \|\sigma\|_p \]

比較經典的,\(p=1\)對應核范數,\(p=2\)對應F范數,\(p=\infty\)對應譜范數。

定理1

在這里插入圖片描述

證明如下:

這一部分的證明需要注意,不要把\(A\)當成題目中的\(A\),當成\(A+rR\)可能更容易理解。
在這里插入圖片描述

這部分的證明,主要是得出了\(\sigma_i(\gamma)\)的一個泰勒展開,要想證明這個式子成立,可以利用上面的公式,也可以這么想。\(\sigma_i(\gamma)\)\(A+\gamma R\)的第\(i\)個奇異值:

\[\lim_{\gamma \rightarrow 0^+} \frac{\sigma_i(\gamma)-\sigma_i}{\gamma}=\lim_{\gamma \rightarrow 0^+} \frac{\sigma_i(A+\gamma R)-\sigma_i}{\gamma}=\lim_{\gamma \rightarrow 0^+} \frac{u_i(\gamma)^T(A+\gamma R)v_i(\gamma)-\sigma_i}{\gamma} \]

即為:

\[\lim_{\gamma \rightarrow 0^+} \frac{u_i(\gamma)^TAv_i(\gamma)-\sigma_i}{\gamma}+u_i^TRv_i \]

所以左邊這項等於0?
在這里插入圖片描述

下面的證明中,第一個不等式成立的原因是:

\[\phi(\sigma) \ge \phi(\sigma(\gamma))+(\sigma-\sigma(\gamma))^T\mathrm{d}(\gamma) \]

\(\sigma(\gamma)^T\mathrm{d}(r)=\phi(\sigma(r))\)
在這里插入圖片描述

類似地,我們就可以得到下面的分析:
在這里插入圖片描述
有一點點小問題是,沒有體現出\(\max\)的,不過從(2.5)看,因為這個不等式是對所有\(\mathrm{d}\in \partial \phi(\sigma)\)都成立的,所以結果成立。怎么說呢,這個有點像是上確界的東西。

我們定義符號\(\mathrm{conv} \{\cdot \}\),表示集合的凸包。

定理2

注意,我們的最終目的是找到\(\partial \|A\|\)利用前面的鋪墊我們可以得到定理2:

在這里插入圖片描述
相當有趣的一個東西。

下面是證明:

證明總的是分倆大部分來證明的,首先得證明\(G \in \mathrm{conv} \{S(A)\}\)滿足上面的倆個條件,即是次梯度,再證明,不存在一個次梯度不屬於\(\mathrm{conv} \{S(A)\}\)
其實下面這部分的證明,我覺得用\(A = U_i\Sigma_i V_i^T\)表示比較好,作者的意思應該是奇異值分解可以用不同的序,畢竟我們不能要求凸包中的元素有合適的序。
在這里插入圖片描述

下面這部分的證明,感覺沒什么好講的。
在這里插入圖片描述
下面這部分證明,打問號的地方我有疑惑,以為我覺得只能知道\(\phi^*(\mathrm{d}_i)\le 1\),而且在這個條件下,證明依舊。好吧,我明白了,因為:\(\phi^*(\mathrm{d}_i)=\max \limits_{\phi(x)=1}\mathrm{d}_i^Tx\),又\(\mathrm{d}_i \in \phi(\sigma)\),所以只需令\(x=\sigma/|\phi(\sigma)\)即可得\(\phi^*(\mathrm{d}_i)=1\)
在這里插入圖片描述
到此,倆個條件滿足,第一部分證畢。

第二部分用到了一個理論,我沒有去查閱。這部分證明的思想是,即便存在這么一個\(G\)不屬於\(\mathrm{conv}S(A)\)\(G\)依舊得滿足\(\mathrm{trace}(R^TG) \le \max \limits_{\mathrm{d \in \partial \phi(\sigma)}} \sum \limits_{t=1}^n d_i u_i^TRv_i\)(要知道,后面這個部分是類似右導數的存在!!!),這個的原理是一種極限的思想,不好表述,但是真的真的蠻容易證明的。
在這里插入圖片描述

例子:譜范數

在這里插入圖片描述
在這里插入圖片描述
凸包,凸包,切記切記。

例子:核范數

在這里插入圖片描述
上面倒數第二行那個式子成立,要注意\(\sum_i \lambda_i =1\)這個條件。
在這里插入圖片描述

注意:這里出現\(Y,Z\)的原因是\(U^{(2)},V^{(2)}\)對應的奇異值為0,所以其順序是任意的,並沒有對應一說。

算子范數

\(\|\cdot\|_A\)\(\|\cdot\|_B\)分別表示定義在\(\mathbb{R}^m\)\(\mathbb{R}^n\)上的范數,那么對於矩陣\(A \in \mathbb{R}^{m \times n}\)上的算子范數,可以如下定義:

\[\|A\| = \max \limits_{\|x\|_B=1} \|Ax\|_A \]

注意,矩陣范數,向量范數都滿足引里的那個等價條件(實際上,只需滿足正定性和三角不等式即可,就能推出那個等價條件)。

定義\(\Phi(A)\):
在這里插入圖片描述

定理3

類似的,我們有定理3:
在這里插入圖片描述

這部分的推導是類似的:
在這里插入圖片描述
在這里插入圖片描述

下面這部分和之前的是不同的,這么大費周章,就是為了證明最后收斂的結果在\(\Phi(A)\)中,之間沒有這部分的證明,是因為凸函數次梯度的集合是閉凸的?
在這里插入圖片描述
在這里插入圖片描述

定理4

這個定理,就是為了導出\(\|A\|\)的次梯度。

在這里插入圖片描述
這部分首先利用跡的性質,再利用\(Av_i=\|A\|u_i\)
在這里插入圖片描述
\(w_i^TRv_i \le \|R\|\)的原因是\(\|w_i\|_A^* \le1\),
\(\frac{\|Rv_i\|_A}{\|R\|}=\frac{\|Rv_i\|_A}{\max \limits_{\|v\|\_B=1} \|Rv\|_A}\le1\)(至少\(\|Rv_i\|_A=1\)),所以有上面的結果。
在這里插入圖片描述
到此,我們證明了,\(S(A)\)中的元素均為次梯度,下證凡是次梯度,必屬於\(S(A)\)

這部分證明沒有需要特別說明的。
在這里插入圖片描述

例子 \(\ell_2\)

在這里插入圖片描述


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM