《Subgradients》
Subderivate-wiki
Subgradient method-wiki
《Subgradient method》
Subgradient-Prof.S.Boyd,EE364b,StanfordUniversity
《Characterization of the Subdifferential of Some Matrix Norms 》
這篇文章主要參考:
《Characterization of the Subdifferential of Some Matrix Norms 》
引
矩陣\(A \in \mathbb{R}^{m\times n}\),\(\|\cdot\|\)為矩陣范數,注意這里我們並沒有限定為何種范數。那么\(\|A\|\)的次梯度可以用下式表示:
這個定義和之前提到的定義是相一致的,事實上,\(\mathrm{trace}(A^TB)\)就相當於將\(A\)和\(B\)拉成倆個長向量作內積,比較實質就是對應元素相乘再相加。
\(G \in \partial \|A\|\)等價於:
在我看的書里面,對偶范數一般用\(\|\cdot\|_*\)表示,且是如此定義的:
因為下面還有很多地方是采取截圖的形式展示的,所以還是沿襲論文的符號比較好,這里只是簡單提一下。
至於為什么等價,論文里面沒有提,我只能證明,滿足那倆點條件的\(G\)是\(\|A\|\)的次梯度,而不能證明所有次梯度都滿足那倆個條件。
證明如下:
假設\(G\)滿足上面的條件,那么:
又
所以
所以\(G \in \partial \|A\|\)'
不好意思,我想到怎么證明啦!下證,\(G \in \partial \|A\|\)必定滿足上述的條件,我們先說明范數的一些性質:
齊次:\(\|tA\|=|t|\|A\|\)
三角不等式:\(\|A+B\| \le \|A\|+\|B\|\)
既然對所有\(B \in \mathbb{R}^{m \times n}\)成立:
令\(B=1/2A\),可得:
又
所以:
到此第一個條件得證。
又:
第二個條件也得證。漂亮!
正交不變范數
正交不變范數定義如下:
其中\(U,V\)為任意正交矩陣(原文是\(\|UVA\|=\|A\|\),我認為是作者的筆誤)。
注意,如果范數\(\|\cdot\|\)是正交不變的,那么其對偶范數同樣是正交不變的,證明如下:
既然:
令\(UXV\)替代\(X\)代入即可得:
最后第二個等式成立根據跡的性質和\(\|\cdot\|\)的題設。
我們假設矩陣\(A\)的SVD分解為:
其中\(\Sigma \in \mathbb{R}^{m \times n}\)為對角矩陣(那種歪歪的對角矩陣),\(U\)和\(V\)的列我們用\(u_i,v_i\)來表示。
假設其奇異值:
降序排列。
所有這樣的(正交不變?)范數都能用下式來定義:
其中\(\sigma = (\sigma_1, \ldots, \sigma_n)^T\),\(\phi\)是一個對稱規范函數(symmetirc gague function),滿足:
上面這個東西我也證明不了,不過至少譜范數和核函數的確是這樣的。
\(\phi\)的對偶可以用下式來表示:
而且其次梯度更矩陣范數又有相似的一個性質:
證明是類似的,不多贅述。
一種常見的正交不變范數可由下式定義:
比較經典的,\(p=1\)對應核范數,\(p=2\)對應F范數,\(p=\infty\)對應譜范數。
定理1
證明如下:
這一部分的證明需要注意,不要把\(A\)當成題目中的\(A\),當成\(A+rR\)可能更容易理解。
這部分的證明,主要是得出了\(\sigma_i(\gamma)\)的一個泰勒展開,要想證明這個式子成立,可以利用上面的公式,也可以這么想。\(\sigma_i(\gamma)\)是\(A+\gamma R\)的第\(i\)個奇異值:
即為:
所以左邊這項等於0?
下面的證明中,第一個不等式成立的原因是:
又\(\sigma(\gamma)^T\mathrm{d}(r)=\phi(\sigma(r))\)
類似地,我們就可以得到下面的分析:
有一點點小問題是,沒有體現出\(\max\)的,不過從(2.5)看,因為這個不等式是對所有\(\mathrm{d}\in \partial \phi(\sigma)\)都成立的,所以結果成立。怎么說呢,這個有點像是上確界的東西。
我們定義符號\(\mathrm{conv} \{\cdot \}\),表示集合的凸包。
定理2
注意,我們的最終目的是找到\(\partial \|A\|\)利用前面的鋪墊我們可以得到定理2:
相當有趣的一個東西。
下面是證明:
證明總的是分倆大部分來證明的,首先得證明\(G \in \mathrm{conv} \{S(A)\}\)滿足上面的倆個條件,即是次梯度,再證明,不存在一個次梯度不屬於\(\mathrm{conv} \{S(A)\}\)。
其實下面這部分的證明,我覺得用\(A = U_i\Sigma_i V_i^T\)表示比較好,作者的意思應該是奇異值分解可以用不同的序,畢竟我們不能要求凸包中的元素有合適的序。
下面這部分的證明,感覺沒什么好講的。
下面這部分證明,打問號的地方我有疑惑,以為我覺得只能知道\(\phi^*(\mathrm{d}_i)\le 1\),而且在這個條件下,證明依舊。好吧,我明白了,因為:\(\phi^*(\mathrm{d}_i)=\max \limits_{\phi(x)=1}\mathrm{d}_i^Tx\),又\(\mathrm{d}_i \in \phi(\sigma)\),所以只需令\(x=\sigma/|\phi(\sigma)\)即可得\(\phi^*(\mathrm{d}_i)=1\)。
到此,倆個條件滿足,第一部分證畢。
第二部分用到了一個理論,我沒有去查閱。這部分證明的思想是,即便存在這么一個\(G\)不屬於\(\mathrm{conv}S(A)\),\(G\)依舊得滿足\(\mathrm{trace}(R^TG) \le \max \limits_{\mathrm{d \in \partial \phi(\sigma)}} \sum \limits_{t=1}^n d_i u_i^TRv_i\)(要知道,后面這個部分是類似右導數的存在!!!),這個的原理是一種極限的思想,不好表述,但是真的真的蠻容易證明的。
例子:譜范數
凸包,凸包,切記切記。
例子:核范數
上面倒數第二行那個式子成立,要注意\(\sum_i \lambda_i =1\)這個條件。
注意:這里出現\(Y,Z\)的原因是\(U^{(2)},V^{(2)}\)對應的奇異值為0,所以其順序是任意的,並沒有對應一說。
算子范數
讓\(\|\cdot\|_A\)和\(\|\cdot\|_B\)分別表示定義在\(\mathbb{R}^m\)和\(\mathbb{R}^n\)上的范數,那么對於矩陣\(A \in \mathbb{R}^{m \times n}\)上的算子范數,可以如下定義:
注意,矩陣范數,向量范數都滿足引里的那個等價條件(實際上,只需滿足正定性和三角不等式即可,就能推出那個等價條件)。
定義\(\Phi(A)\):
定理3
類似的,我們有定理3:
這部分的推導是類似的:
下面這部分和之前的是不同的,這么大費周章,就是為了證明最后收斂的結果在\(\Phi(A)\)中,之間沒有這部分的證明,是因為凸函數次梯度的集合是閉凸的?
定理4
這個定理,就是為了導出\(\|A\|\)的次梯度。
這部分首先利用跡的性質,再利用\(Av_i=\|A\|u_i\)
\(w_i^TRv_i \le \|R\|\)的原因是\(\|w_i\|_A^* \le1\),
又\(\frac{\|Rv_i\|_A}{\|R\|}=\frac{\|Rv_i\|_A}{\max \limits_{\|v\|\_B=1} \|Rv\|_A}\le1\)(至少\(\|Rv_i\|_A=1\)),所以有上面的結果。
到此,我們證明了,\(S(A)\)中的元素均為次梯度,下證凡是次梯度,必屬於\(S(A)\)。
這部分證明沒有需要特別說明的。