深度學習算法：主成分分析（PCA）算法的理解【特征臉】

本文轉載自查看原文 2020-01-27 09:22 2237 深度學習/ 特征臉

以前對PCA算法有過一段時間的研究，但沒整理成文章，最近項目又打算用到PCA算法，故趁熱打鐵整理下PCA算法的知識。本文觀點旨在拋磚引玉，不是權威，更不能盡信，只是本人的一點體會。

主成分分析（PCA）是多元統計分析中用來分析數據的一種方法，它是用一種較少數量的特征對樣本進行描述以達到降低特征空間維數的方法，它的本質實際上是K-L變換。PCA方法最著名的應用應該是在人臉識別中特征提取及數據維，我們知道輸入200*200大小的人臉圖像，單單提取它的灰度值作為原始特征，則這個原始特征將達到40000維，這給后面分類器的處理將帶來極大的難度。著名的人臉識別Eigenface算法就是采用PCA算法，用一個低維子空間描述人臉圖像，同時用保存了識別所需要的信息。下面先介紹下PCA算法的本質K-L變換。

1、K-L變換（卡洛南-洛伊（Karhunen-Loeve）變換）：最優正交變換

一種常用的特征提取方法；
最小均方誤差意義下的最優正交變換；
在消除模式特征之間的相關性、突出差異性方面有最優的效果。

離散K-L變換：對向量x（可以想象成 M維=width*height 的人臉圖像原始特征）用確定的完備正交歸一向量系 u_j 展開：

這個公式由來我想應該是任一n維歐式空間V均存在正交基，利用施密特正交化過程即可構建這個正交基。

現在我們希望用d個有限項來估計向量x，公式如下：

計算該估計的均方誤差如下：

要使用均方誤差最小，我們采用Langrange乘子法進行求解：

因此，當滿足上式時，

取得最小值。

即相關矩陣R的d個特征向量（對應d個特征值從大到小排列）為基向量來展開向量x時，其均方誤差最小，為：

因此，K-L變換定義：當取矩陣R的d個最大特征值對應的特征向量來展開x時，其截斷均方誤差最小。這d個特征向量組成的正交坐標系稱作x所在的D維空間的d維K-L變換坐標系， x在K-L坐標系上的展開系數向量y稱作x的K-L變換。

總結下，K-L變換的方法：對相關矩陣R的特征值由大到小進行排隊，

則均方誤差最小的x近似於：

矩陣形式：

上式兩邊乘以U的轉置，得

向量y就是變換（降維）后的系數向量，在人臉識別Eigenface算法中就是用系數向量y代替原始特征向量x進行識別。

下面，我們來看看相關矩陣R到底是什么樣子。

因此，我們可以看出相關矩陣R是一個實對稱矩陣（或者嚴謹的講叫正規矩陣），正規矩陣有什么特點呢？？學過《矩陣分析》的朋友應該知道：

若矩陣R是一個實對稱矩陣，則必定存在正交矩陣U，使得R相似於對角形矩陣，即：

因此，我們可以得出這樣一個結論：

降維后的系數向量y的相關矩陣是對角矩陣，即通過K-L變換消除原有向量x的各分量間的相關性，從而有可能去掉那些帶有較少信息的分量以達到降低特征維數的目的。

2、主成分分析（PCA)

主成分分析（PCA）的原理就是將一個高維向量x,通過一個特殊的特征向量矩陣U，投影到一個低維的向量空間中，表征為一個低維向量y，並且僅僅損失了一些次要信息。也就是說，通過低維表征的向量和特征向量矩陣，可以基本重構出所對應的原始高維向量。

在人臉識別中，特征向量矩陣U稱為特征臉（eigenface）空間，因此其中的特征向量u_i進行量化后可以看出人臉輪廓，在下面的實驗中可以看出。

以人臉識別為例，說明下PCA的應用。

設有N個人臉訓練樣本，每個樣本由其像素灰度值組成一個向量x_i，則樣本圖像的像素點數即為x_i的維數，M=width*height ，由向量構成的訓練樣本集為

。

該樣本集的平均向量為：

平均向量又叫平均臉。

樣本集的協方差矩陣為：

求出協方差矩陣的特征向量u_i和對應的特征值

，這些特征向量組成的矩陣U就是人臉空間的正交基底，用它們的線性組合可以重構出樣本中任意的人臉圖像，（如果有朋友不太理解這句話的意思，請看下面的總結2。）並且圖像信息集中在特征值大的特征向量中，即使丟棄特征值小的向量也不會影響圖像質量。

將協方差矩陣的特征值按大到小排序：

。由大於

的

對應的特征向量構成主成分，主成分構成的變換矩陣為：

這樣每一幅人臉圖像都可以投影到

構成的特征臉子空間中，U的維數為M×d。有了這樣一個降維的子空間，任何一幅人臉圖像都可以向其作投影

，即並獲得一組坐標系數，即低維向量y，維數d×1,為稱為KL分解系數。這組系數表明了圖像在子空間的位置，從而可以作為人臉識別的依據。

有朋友可能不太理解，第一部分講K-L變換的時候，求的是相關矩陣

的特征向量和特征值，這里怎么求的是協方差矩陣

其實協方差矩陣也是：

，可以看出其實

用代替x就成了相關矩陣R，相當於原始樣本向量都減去個平均向量，實質上還是一樣的，協方差矩陣也是實對稱矩陣。

總結下：

1、在人臉識別過程中，對輸入的一個測試樣本x，求出它與平均臉的偏差

，則

在特征臉空間U的投影，可以表示為系數向量y：

U的維數為M×d，

的維數為M×1，y的維數d×1。若M為200*200=40000維，取200個主成分，即200個特征向量，則最后投影的系數向量y維數降維200維。

2、根據1中的式子，可以得出：

這里的x就是根據投影系數向量y重構出的人臉圖像，丟失了部分圖像信息，但不會影響圖像質量。

3、PCA算法實驗

在計算機視覺庫OpenCV中較新的版本中，封裝了PCA算法的類。下面是對PCA算法做的一些實驗，有助於加深對PCA算法的理解。代碼來自於tornadomeet，我並沒有作太多修改，加多一些說明。

鏈接在此：http://www.cnblogs.com/tornadomeet/archive/2012/09/06/2673104.html

運行環境為：WindowsXP+QT+OpenCV2.3.1。

部分函數說明如下：

Mat Mat::reshape(int cn, int rows=0) const

　　該函數是改變Mat的尺寸，即保持尺寸大小=行數*列數*通道數不變。其中第一個參數為變換后Mat的通道數，如果為0，代表變換前后通道數不變。第二個參數為變換后Mat的行數，如果為0也是代表變換前后通道數不變。但是該函數本身不復制數據。

　　void Mat::convertTo(OutputArray m, int rtype, double alpha=1, double beta=0 ) const

　　該函數其實是對原Mat的每一個值做一個線性變換。參數1為目的矩陣，參數2為目d矩陣的類型，參數3和4變換的系數，看完下面的公式就明白了：

　　PCA::PCA(InputArray data, InputArray mean, int flags, int maxComponents=0)

　　該構造函數的第一個參數為要進行PCA變換的輸入Mat；參數2為該Mat的均值向量；參數3為輸入矩陣數據的存儲方式，如果其值為CV_PCA_DATA_AS_ROW則說明輸入Mat的每一行代表一個樣本，同理當其值為CV_PCA_DATA_AS_COL時，代表輸入矩陣的每一列為一個樣本；最后一個參數為該PCA計算時保留的最大主成分的個數。如果是缺省值，則表示所有的成分都保留。