機器學習算法之降維

本文轉載自查看原文 2018-06-29 12:46 2230 機器學習

　　在機器學習的過程中，我們經常會遇見過擬合的問題。而輸入數據或features的維度過高就是導致過擬合的問題之一。。維度越高，你的數據在每個特征維度上的分布就越稀疏，這對機器學習算法基本都是災難性的。所有出現了很多降維的方法。今天我們要討論的就是LDA降維。

LDA降維的思路是：如果兩類數據線性可分，即：存在一個超平面，將兩類數據分開。則：存在模旋轉向量，將兩類數據投影到一維上，並且依然是線性可分的。

假設未定一組N個帶標記的數據（X_i，C_i），其中，標記C分兩類，即：C_i =0 或C_i=1，設計分類器，將數據分開。如果x的維度很高，甚至比N還多，這時候就需要降維了。

1、根據線性變換，將X降成一維的

假定旋轉向量為W，將數據X投影到一維y，得到 y =W^TX ，其中輸入數據X，旋轉向量W。

如此就將原來我x維的向量轉換為一維，利用分類算法將數據分類為C。從而，可以找到閾值W_0，如果y>W₀為一類，y<W₀為一類。

2、計算每個分類的類內均值和方差

令C1類有N1個元素，C2有N2個元素，計算投影前的類內均值和投影后的類內均值和松散度（方差）：

3、尋找Fisher判別准則

4、對目標函數進行優化

也就是對目標函數求導后取極值。

倒數為：

推導得到，三者同方向。

PCA和LDA的區別

LDA：分類性能最好的方向

PCA：樣本點投影具有最大方差的方向

實際問題往往需要研究多個特征，而這些特征就有一定的相關性。

將多個特征綜合為少數幾個代表性特征。組合后的特征既能夠代表原始特征的絕大部分信息，又互不相關，降低相關性。這種提取原始特征的主成分的方法就叫主成分分析。

對於包含n個特征的m個樣本的數據，將每個樣本標記成行向量，得到了矩陣A：

尋找樣本的主方向U：將m個樣本的值投影到某直線L上，得到m個位於直線L上的點，計算m個投影點的方差。認為方差最大的直線方向為主方向。

假設樣本去均值了

取投影的直線L的延伸方向u，計算AXu的值

求向量A X u的方差

目標函數：J（u）= u^TA^TAu

目標函數求駐點：

由於u數乘得到的方向和u相同，因此，增加u是單位向量的約束，即：||u||₂=1 = u^Tu

建立Lagrange的方程：

L（u）= u^TA^TAu -λ （u^Tu-1）

求導：

分析A^TAu = λu

若A中的樣本都是去均值化的，則A^TA與A的協方差矩陣僅僅相差系數n-1

u是A^TA的特征向量，λ的值的大小為原始觀測數據的特征向量在向量u的方向上投影值的方差

去噪、降維、模式識別、分析數據胡相關性以及多源融合等

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 機器學習算法總結(九)——降維(SVD, PCA) 機器學習之降維方法機器學習 - 特征篩選與降維機器學習降維算法四：Laplacian Eigenmaps 拉普拉斯特征映射機器學習降維算法三：LLE (Locally Linear Embedding) 局部線性嵌入機器學習算法機器學習基礎---無監督學習之降維 coursera機器學習-聚類，降維，主成分分析機器學習降維之線性判別分析 python大戰機器學習——數據降維