圖像，矩陣以及魯棒性筆記

本文轉載自查看原文 2020-01-23 09:31 684 矩陣/ 深度學習/ 圖像/ 魯棒性

1.黑白圖像不是二維數據。圖像的維度，實際上是圖像中特征向量的數量。用向量數據化圖像，想象按行掃描，遇到的每一個像素都是向量的一個元素，像素個數就是向量維數；例如二維圖像矩陣表示為:256*256=65536，維數還是很高的。一個100x100像素的圖像其灰度圖產生的特征向量是10000維度，而1920x1080像素的圖像則對應2073600維度的特征向量。

2.圖像降維：降維算法中的”降維“，指的是降低特征矩陣中特征的數量。

假設一個矩陣 $X$ (大小為 $n \times p$ ,已經歸一化), 那么可以得到一個 $p \times p$ 的協方差矩陣 $\sum=X^TX$ 。這是一個對稱矩陣，特征向量正交。

因此應用SVD分解 $\sum = V\wedge V^T$ 。其中 $V$ 是特征向量組成的矩陣（ $VV^T=I$ ）， $\wedge$ 是由特征值組成的對角矩陣。特征向量對應數據的主要方向。然后就是把數據投影到這個方向上來。那么投影后為 $XV$ 。

如果只取前 $k$ 個特征值對應的特征向量，那么原本 $X$ ( $n \times p$ )可以變成 $XV_{p\times k}$ ( $n \times k$ ),完成了降維。

2.假設我們要執行面部識別，即基於帶有標記的面部圖像訓練數據集來確定人的身份。一個辦法是把圖像上每個像素的亮度作為特征。如果輸入圖像的大小是32×32，這意味着該特征向量包含1024個特征值。判斷新的圖像通過計算這1024維矢量與我們訓練數據集中特征向量之間的歐氏距離完成。然后最小距離告訴我們正在尋找的那個人。

因為2D數據的特征向量是2維的，三維數據的特征向量是3維的，1024維數據的特征向量是1024維。換句話說，為了可視化，我們可以重塑每個1024維特征向量到一個32×32的圖像。圖10展示了由劍橋人臉數據集的特征分解獲得的前四個特征向量：
這里寫圖片描述

每個1024維特征向量可以映射到N個最大的特征向量，並可以表示為這些特征臉的線性組合。這些線性組合的權重確定人的身份。因為最大特征向量表示數據中的最大方差，所以這些特征臉描述信息量最大的圖像區域（眼睛，鼻子，嘴等）。只考慮前N（例如，N = 70）個特征向量，特征空間的維數大大減少了。剩下的問題是現在使用了多少個特征臉，或者在一般情況下，應保留多少個特征向量。

特征臉提取具體步驟以及介紹： Eigenface-based facial recognition

2.Certified Adversarial Robustness via Randomized Smoothing

代碼地址: http://github.com/locuslab/smoothing.

定義： “smoothed” classifier g