一些矩陣范數的subgradients

本文轉載自查看原文 2019-04-12 16:07 884 數值解

引
正交不變范數
算子范數

《Subgradients》
Subderivate-wiki
Subgradient method-wiki
《Subgradient method》
Subgradient-Prof.S.Boyd,EE364b,StanfordUniversity
《Characterization of the Subdifferential of Some Matrix Norms 》

這篇文章主要參考：

《Characterization of the Subdifferential of Some Matrix Norms 》

引

矩陣\(A \in \mathbb{R}^{m\times n}\)，\(\|\cdot\|\)為矩陣范數，注意這里我們並沒有限定為何種范數。那么\(\|A\|\)的次梯度可以用下式表示：

\[\partial \|A\| = \{G \in \mathbb{R}^{m\times n}|\|B\| > \|A\| +\mathrm{trace}[(B-A)^TG],all \: B \in \mathbb{R}^{m \times n} \} \]

這個定義和之前提到的定義是相一致的，事實上，\(\mathrm{trace}(A^TB)\)就相當於將\(A\)和\(B\)拉成倆個長向量作內積，比較實質就是對應元素相乘再相加。

\(G \in \partial \|A\|\)等價於：
在這里插入圖片描述
在我看的書里面，對偶范數一般用\(\|\cdot\|_*\)表示，且是如此定義的：

\[\|z\|_* = \sup \{z^Tx| \|x\| \le 1\} \]

因為下面還有很多地方是采取截圖的形式展示的，所以還是沿襲論文的符號比較好，這里只是簡單提一下。
至於為什么等價，論文里面沒有提，我只能證明，滿足那倆點條件的\(G\)是\(\|A\|\)的次梯度，而不能證明所有次梯度都滿足那倆個條件。
證明如下：
假設\(G\)滿足上面的條件，那么：

\[\mathrm{trace}[(B-A)^TG]=-\|A\|+\mathrm{trace}(B^TG) \\ \Rightarrow \|A\| + \mathrm{trace}[(B-A)^TG] = \mathrm{trace}(B^TG) \]

又

\[\mathrm{trace}(\frac{B^T}{\|B\|}G) \le 1=\frac{\|B\|}{\|B\|} \]

所以

\[\|B\|\ge \|A\| + \mathrm{trace}[(B-A)^TG] \]

所以\(G \in \partial \|A\|\)'
不好意思，我想到怎么證明啦！下證，\(G \in \partial \|A\|\)必定滿足上述的條件，我們先說明范數的一些性質：
齊次：\(\|tA\|=|t|\|A\|\)
三角不等式：\(\|A+B\| \le \|A\|+\|B\|\)
既然對所有\(B \in \mathbb{R}^{m \times n}\)成立：

\[\|B\| \ge \|A\| + \mathrm{trace}[(B-A)^TG] \]

令\(B=1/2A\),可得：

\[\mathrm{trace}(A^TG) \ge \|A\| \]

又

\[\|A+B\| \le \|A\| + \|B\| \le \|A+B\|-\mathrm{trace}[B^TG]+\|B\| \\ \Rightarrow \mathrm{trace}(B^TG)\le \|B\| \]

所以:

\[\|A\| \le \mathrm{trace}(A^TG) \le \|A\| \Rightarrow \mathrm{trace}(A^TG)=\|A\| \]

到此第一個條件得證。
又：

\[\mathrm{trace}(B^TG)\le \|B\| \Rightarrow \mathrm{trace}(\frac{B^T}{\|B\|}G) = \|G\|^*\le 1 \]

第二個條件也得證。漂亮！

正交不變范數

正交不變范數定義如下：

\[\|UAV\| = \|A\| \]

其中\(U,V\)為任意正交矩陣（原文是\(\|UVA\|=\|A\|\)，我認為是作者的筆誤）。
注意，如果范數\(\|\cdot\|\)是正交不變的，那么其對偶范數同樣是正交不變的，證明如下：
既然：

\[\|Z\|^*=\sup \{\mathrm{trace}(Z^TX)|\|X\|\le1 \} \]

\[\|UZV\|^*=\sup \{\mathrm{trace}(V^TZ^TU^TX)|\|X\|\le1 \} \]

令\(UXV\)替代\(X\)代入即可得：

\[\begin{array}{ll} \|UZV\|^*&=\sup \{\mathrm{trace}(V^TZ^TU^TX)|\|X\|\le1 \}\\ &=\sup \{\mathrm{trace}(V^TZ^TU^TUXV)|\|UXV\|\le1 \}\\ &= \sup \{\mathrm{trace}(Z^TX)|\|X\|\le1 \}\\ &= \|Z\|^* \end{array} \]

最后第二個等式成立根據跡的性質和\(\|\cdot\|\)的題設。

我們假設矩陣\(A\)的SVD分解為:

\[A = U\Sigma V^T \]

其中\(\Sigma \in \mathbb{R}^{m \times n}\)為對角矩陣（那種歪歪的對角矩陣），\(U\)和\(V\)的列我們用\(u_i,v_i\)來表示。
假設其奇異值：

\[\sigma_1\le \sigma_2 \le \ldots \le \sigma_n \]

降序排列。
所有這樣的（正交不變？）范數都能用下式來定義：

\[\|A\| = \phi(\sigma) \]

其中\(\sigma = (\sigma_1, \ldots, \sigma_n)^T\),\(\phi\)是一個對稱規范函數(symmetirc gague function)，滿足:
在這里插入圖片描述
上面這個東西我也證明不了，不過至少譜范數和核函數的確是這樣的。

\(\phi\)的對偶可以用下式來表示：

\[\phi^*= \max \limits_{\phi(y)=1} x^Ty \]

而且其次梯度更矩陣范數又有相似的一個性質：
在這里插入圖片描述
證明是類似的，不多贅述。

一種常見的正交不變范數可由下式定義：

\[\|A\| = \|\sigma\|_p \]

比較經典的，\(p=1\)對應核范數，\(p=2\)對應F范數，\(p=\infty\)對應譜范數。

定理1

在這里插入圖片描述

證明如下：

這一部分的證明需要注意，不要把\(A\)當成題目中的\(A\)，當成\(A+rR\)可能更容易理解。
在這里插入圖片描述

這部分的證明，主要是得出了\(\sigma_i(\gamma)\)的一個泰勒展開，要想證明這個式子成立，可以利用上面的公式，也可以這么想。\(\sigma_i(\gamma)\)是\(A+\gamma R\)的第\(i\)個奇異值：

\[\lim_{\gamma \rightarrow 0^+} \frac{\sigma_i(\gamma)-\sigma_i}{\gamma}=\lim_{\gamma \rightarrow 0^+} \frac{\sigma_i(A+\gamma R)-\sigma_i}{\gamma}=\lim_{\gamma \rightarrow 0^+} \frac{u_i(\gamma)^T(A+\gamma R)v_i(\gamma)-\sigma_i}{\gamma} \]

即為：

\[\lim_{\gamma \rightarrow 0^+} \frac{u_i(\gamma)^TAv_i(\gamma)-\sigma_i}{\gamma}+u_i^TRv_i \]

所以左邊這項等於0？
在這里插入圖片描述

下面的證明中，第一個不等式成立的原因是：

\[\phi(\sigma) \ge \phi(\sigma(\gamma))+(\sigma-\sigma(\gamma))^T\mathrm{d}(\gamma) \]

又\(\sigma(\gamma)^T\mathrm{d}(r)=\phi(\sigma(r))\)
在這里插入圖片描述

類似地，我們就可以得到下面的分析：
在這里插入圖片描述
有一點點小問題是，沒有體現出\(\max\)的，不過從(2.5)看，因為這個不等式是對所有\(\mathrm{d}\in \partial \phi(\sigma)\)都成立的，所以結果成立。怎么說呢，這個有點像是上確界的東西。

我們定義符號\(\mathrm{conv} \{\cdot \}\)，表示集合的凸包。

定理2

注意，我們的最終目的是找到\(\partial \|A\|\)利用前面的鋪墊我們可以得到定理2：

在這里插入圖片描述
相當有趣的一個東西。

下面是證明：

證明總的是分倆大部分來證明的，首先得證明\(G \in \mathrm{conv} \{S(A)\}\)滿足上面的倆個條件，即是次梯度，再證明，不存在一個次梯度不屬於\(\mathrm{conv} \{S(A)\}\)。
其實下面這部分的證明，我覺得用\(A = U_i\Sigma_i V_i^T\)表示比較好，作者的意思應該是奇異值分解可以用不同的序，畢竟我們不能要求凸包中的元素有合適的序。
在這里插入圖片描述

下面這部分的證明，感覺沒什么好講的。
在這里插入圖片描述
下面這部分證明，打問號的地方我有疑惑，以為我覺得只能知道\(\phi^*(\mathrm{d}_i)\le 1\)，而且在這個條件下，證明依舊。好吧，我明白了，因為：\(\phi^*(\mathrm{d}_i)=\max \limits_{\phi(x)=1}\mathrm{d}_i^Tx\)，又\(\mathrm{d}_i \in \phi(\sigma)\),所以只需令\(x=\sigma/|\phi(\sigma)\)即可得\(\phi^*(\mathrm{d}_i)=1\)。
在這里插入圖片描述
到此，倆個條件滿足，第一部分證畢。

第二部分用到了一個理論，我沒有去查閱。這部分證明的思想是，即便存在這么一個\(G\)不屬於\(\mathrm{conv}S(A)\)，\(G\)依舊得滿足\(\mathrm{trace}(R^TG) \le \max \limits_{\mathrm{d \in \partial \phi(\sigma)}} \sum \limits_{t=1}^n d_i u_i^TRv_i\)（要知道，后面這個部分是類似右導數的存在！！！），這個的原理是一種極限的思想，不好表述，但是真的真的蠻容易證明的。
在這里插入圖片描述

例子：譜范數

在這里插入圖片描述

凸包，凸包，切記切記。

例子：核范數

在這里插入圖片描述
上面倒數第二行那個式子成立，要注意\(\sum_i \lambda_i =1\)這個條件。

注意：這里出現\(Y,Z\)的原因是\(U^{(2)},V^{(2)}\)對應的奇異值為0，所以其順序是任意的，並沒有對應一說。

算子范數

讓\(\|\cdot\|_A\)和\(\|\cdot\|_B\)分別表示定義在\(\mathbb{R}^m\)和\(\mathbb{R}^n\)上的范數，那么對於矩陣\(A \in \mathbb{R}^{m \times n}\)上的算子范數，可以如下定義：

\[\|A\| = \max \limits_{\|x\|_B=1} \|Ax\|_A \]

注意，矩陣范數，向量范數都滿足引里的那個等價條件（實際上，只需滿足正定性和三角不等式即可，就能推出那個等價條件）。

定義\(\Phi(A)\):
在這里插入圖片描述

定理3

類似的，我們有定理3：
在這里插入圖片描述

這部分的推導是類似的：
在這里插入圖片描述

下面這部分和之前的是不同的，這么大費周章，就是為了證明最后收斂的結果在\(\Phi(A)\)中，之間沒有這部分的證明，是因為凸函數次梯度的集合是閉凸的？
在這里插入圖片描述

定理4

這個定理，就是為了導出\(\|A\|\)的次梯度。

在這里插入圖片描述
這部分首先利用跡的性質，再利用\(Av_i=\|A\|u_i\)

\(w_i^TRv_i \le \|R\|\)的原因是\(\|w_i\|_A^* \le1\),
又\(\frac{\|Rv_i\|_A}{\|R\|}=\frac{\|Rv_i\|_A}{\max \limits_{\|v\|\_B=1} \|Rv\|_A}\le1\)(至少\(\|Rv_i\|_A=1\))，所以有上面的結果。

到此，我們證明了，\(S(A)\)中的元素均為次梯度，下證凡是次梯度，必屬於\(S(A)\)。

這部分證明沒有需要特別說明的。
在這里插入圖片描述

例子 \(\ell_2\)

在這里插入圖片描述

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 向量范數和矩陣范數矩陣范數矩陣的范數矩陣及矩陣范數求導矩陣2范數與向量2范數的關系布爾矩陣的一些運算向量和矩陣的各種范數比較（1范數、2范數、無窮范數等等矩陣范數的定義與推導向量和矩陣范數矩陣奇異值與矩陣范數