矩陣范數及其求導

本文轉載自查看原文 2018-09-19 15:49 12678 學習筆記

在機器學習的特征選擇中，利用選擇矩陣的范數對選擇矩陣進行約束，即是正則化技術，是一種稀疏學習。

矩陣的L0, $L_{1}$

$L_{1}$

矩陣的L2 $L_{1}$

L2范數，又叫“嶺回歸”（Ridge Regression）、“權值衰減”（weight decay）。它的作用是改善過擬合。過擬合是：模型訓練時候的誤差很小，但是測試誤差很大，也就是說模型復雜到可以擬合到所有訓練數據，但在預測新的數據的時候，結果很差。

L2范數是指向量中各元素的平方和然后開根。我們讓L2范數的規則項||W||₂最小，可以使得W的每個元素都很小，都接近於0。而越小的參數說明模型越簡單，越簡單的模型則越不容易產生過擬合現象。

L1是絕對值最小，L2是平方最小：L1會趨向於產生少量的特征，而其他的特征都是0，而L2會選擇更多的特征，這些特征都會接近於0。

矩陣的 $L_{2, 1}$

而為了進一步說明矩陣的稀疏性，來說明特征選擇中矩陣 $L_{2, 1}$

在特征選擇中，通過稀疏化的特征選擇矩陣來選取特征，即相當於是一種線性變換。

對於特征選擇矩陣 $W$

這便是矩陣的 L 2, 1

那么，在線性學習模型，損失函數如：

在優化中，矩陣的范數該如何求導？關於矩陣的F范數求導，可以參考矩陣的 Frobenius 范數及其求偏導法則（https://blog.csdn.net/txwh0820/article/details/46392293）。而矩陣 $L_{2, 1}$

對於一個矩陣 $W = [w_{1}, \dots, w_{d}]^{T}$

$W = [w_{1}, \dots, w_{d}]^{T}$

那么 $L_{2, 1}$ ：

矩陣一般化 $L_{2, P}$

就矩陣一般化 $L_{2, P}$

$L_{2, P}$

矩陣的核 $L_{1}$

$L_{1}$

$L_{1}$ $L_{1}$

$L_{1}$

$L_{1}$

$L_{1}$

$L_{1}$

與經典PCA問題一樣，Robust PCA本質上也是尋找數據在低維空間上的最佳投影問題。對於低秩數據觀測矩陣X，假如X受到隨機（稀疏）噪聲的影響，則X的低秩性就會破壞，使X變成滿秩的。所以就需要將X分解成包含其真實結構的低秩矩陣和稀疏噪聲矩陣之和。找到了低秩矩陣，實際上就找到了數據的本質低維空間。PCA假設數據的噪聲是高斯的，對於大的噪聲或者嚴重的離群點，PCA會被它影響，導致無法正常工作。而Robust PCA則不存在這個假設，它只是假設噪聲是稀疏的，而不管噪聲的強弱如何。

由於rank和L0范數在優化上存在非凸和非光滑特性，所以一般將它轉換成求解以下一個松弛的凸優化問題：

具體應用：考慮同一副人臉的多幅圖像，如果將每一副人臉圖像看成是一個行向量，並將這些向量組成一個矩陣的話，那么可以肯定，理論上，這個矩陣應當是低秩的。但是，由於在實際操作中，每幅圖像會受到一定程度的影響，例如遮擋，噪聲，光照變化，平移等。這些干擾因素的作用可以看做是一個噪聲矩陣的作用。所以可以把同一個人臉的多個不同情況下的圖片各自拉長一列，然后擺成一個矩陣，對這個矩陣進行低秩和稀疏的分解，就可以得到干凈的人臉圖像（低秩矩陣）和噪聲的矩陣了（稀疏矩陣），例如光照，遮擋等等。

矩陣的跡 $L_{1}$

$L_{1}$

令p = 1 ，得到跡范數：

本文為自己學習過程中對其他資源的學習整理而得的學習筆記，內容源自：https://blog.csdn.net/lqzdreamer/article/details/79676305；https://blog.csdn.net/zchang81/article/details/70208061；https://blog.csdn.net/lj695242104/article/details/38801025

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 矩陣及矩陣范數求導向量范數和矩陣范數矩陣范數矩陣的范數 Deep learning：二十七(Sparse coding中關於矩陣的范數求導) 矩陣求導（一）矩陣求導（二）矩陣求導矩陣求導矩陣求導