機器學習算法之降維


  在機器學習的過程中,我們經常會遇見過擬合的問題。而輸入數據或features的維度過高就是導致過擬合的問題之一。。維度越高,你的數據在每個特征維度上的分布就越稀疏,這對機器學習算法基本都是災難性的。所有出現了很多降維的方法。今天我們要討論的就是LDA降維。

LDA降維的思路是:如果兩類數據線性可分,即:存在一個超平面,將兩類數據分開。則:存在模旋轉向量,將兩類數據投影到一維上,並且依然是線性可分的。

提出問題

假設未定一組N個帶標記的數據(Xi,Ci),其中,標記C分兩類,即:Ci =0 或Ci=1,設計分類器,將數據分開。如果x的維度很高,甚至比N還多,這時候就需要降維了。

解題過程

1、根據線性變換,將X降成一維的

假定旋轉向量為W,將數據X投影到一維y,得到 y =WTX ,其中輸入數據X,旋轉向量W。

如此就將原來我x維的向量轉換為一維,利用分類算法將數據分類為C。從而,可以找到閾值W0,如果y>W0為一類,y<W0為一類。

 2、計算每個分類的類內均值和方差

令C1類有N1個元素,C2有N2個元素,計算投影前的類內均值和投影后的類內均值和松散度(方差):

 

3、尋找Fisher判別准則

4、對目標函數進行優化

也就是對目標函數求導后取極值。

倒數為:

 

 推導得到, 三者同方向。

 

主題模型------主成分分析PCA

PCA和LDA的區別

LDA:分類性能最好的方向

PCA:樣本點投影具有最大方差的方向

實際問題往往需要研究多個特征,而這些特征就有一定的相關性。

將多個特征綜合為少數幾個代表性特征。組合后的特征既能夠代表原始特征的絕大部分信息,又互不相關,降低相關性。這種提取原始特征的主成分的方法就叫主成分分析。

問題的提出:

對於包含n個特征的m個樣本的數據,將每個樣本標記成行向量,得到了矩陣A:

解題的思路:

尋找樣本的主方向U:將m個樣本的值投影到某直線L上,得到m個位於直線L上的點,計算m個投影點的方差。認為方差最大的直線方向為主方向。   

 假設樣本去均值了

求方差,PCA的核心推導過程

取投影的直線L的延伸方向u,計算AXu的值

求向量A X u的方差

目標函數:J(u)= uTATAu

目標函數求駐點:

 

由於u數乘得到的方向和u相同,因此,增加u是單位向量的約束,即:||u||2=1 = uTu

 建立Lagrange的方程:

L(u)=  uTATAu -λ (uTu-1)

求導:

分析ATAu = λu

若A中的樣本都是去均值化的,則ATA與A的協方差矩陣僅僅相差系數n-1

u是ATA的特征向量,λ的值的大小為原始觀測數據的特征向量在向量u的方向上投影值的方差

 

 

PCA的重要應用

去噪、降維 、模式識別、分析數據胡相關性以及多源融合等


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM