一、因子分析
因子分析是將具有錯綜復雜關系的變量(或樣本)綜合為少數幾個因子,以再現原始變量和因子之間的相互關系,探討多個能夠直接測量,並且具有一定相關性的實測指標是如何受少數幾個內在的獨立因子所支配,並且在條件許可時借此嘗試對變量進行分類。
因子分析的基本思想
根據變量間相關性的大小把變量分組,使得同組內的變量之間的相關性(共性)較高,並用一個公共因子來代表這個組的變量,而不同組的變量相關性較低(個性)。
因子分析的目的¶
因子分析的目的,通俗來講就是簡化變量維數。即要使因素結構簡單化,希望以最少的共同因素(公共因子),能對總變異量作最大的解釋,因而抽取得因子越少越好,但抽取的因子的累積解釋的變異量越大越好。
主要內容:
(1):主成分分析 PCA
(2):線性判別分析 LDA
二、主成分分析 PCA
1、PCA
英語全稱:Principal Component Analysis
用途:降維中最常用的一種手段
目標:提取最有價值的信息(基於方差)
問題:降維后的數據的意義?
2、向量的表示及基變換
內積:
解釋:
設向量B的模為1,則A與B的內積值等於A向B所在直線投影的矢量長度
向量可以表示為(3,2)實際上表示線性組合:
基:(1,0)和(0,1)叫做二維空間中的一組基
基變換
基是正交的(即內積為0,或直觀說相互垂直)
要求:線性無關
變換: 數據與一個基做內積運算,結果作為第一個新的坐標分量,然后與第二個基做內積運算,結果作為第二個新坐標的分量
數據(3,2)映射到基中坐標:
兩個矩陣相乘的意義是將右邊矩陣中的每一列列向量變換到左邊矩陣中每一行行向量為基所表示的空間中去
協方差矩陣
方向:如何選擇這個方向(或者說基)才能盡量保留最多的原始信息呢?
一種直觀的看法是:希望投影后的投影值盡可能分散
方差 :
尋找一個一維基,使得所有數據變換為這個基上的坐標表示后,方差值最大
協方差(假設均值為0時):
協方差
如果單純只選擇方差最大的方向,后續方向應該會和方差最大的方向接近重合。
解決方案:為了讓兩個字段盡可能表示更多的原始信息,我們是不希望它們之間存在(線性)相關性的
協方差:可以用兩個字段的協方差表示其相關性:
當協方差為0時,表示兩個字段完全獨立。為了讓協方差為0,選擇第二個基時只能在與第一個基正交的方向上選擇。因此最終選擇的兩個方向一定是正交的。
優化目標
將一組N維向量降為K維(K大於0,小於N),目標是選擇K個單位正交基,使原始數據變換到這組基上后,各字段兩兩間協方差為0,字段的方差則盡可能大
協方差矩陣:
矩陣對角線上的兩個元素分別是兩個字段的方差,而其它元素是a和b的協方差。
協方差矩陣對角化:即除對角線外的其它元素化為0,並且在對角線上將元素按大小從上到下排列
協方差矩陣對角化:
實對稱矩陣:一個n行n列的實對稱矩陣一定可以找到n個單位正交特征向量
實對稱陣可進行對角化:
根據特征值的從大到小,將特征向量從上到下排列,則用前K行組成的矩陣乘以原始數據矩陣X,就得到了我們需要的降維后的數據矩陣Y
PCA實例
三、主成分分析 LDA
1、LDA
全稱為:Linear Discriminant Analysis
用途:數據預處理中的降維,分類任務
歷史:Ronald A. Fisher在1936年提出了線性判別方法
目標:LDA關心的是能夠最大化類間區分度的坐標軸成分
將特征空間(數據集中的多維樣本)投影到一個維度更小的 k 維子空間中,同時保持區分類別的信息
原理:投影到維度更低的空間中,使得投影后的點,會形成按類別區分,一簇一簇的情況,相同類別的點,將會在投影后的空間中更接近方法
監督性:LDA是“有監督”的,它計算的是另一類特定的方向
投影:找到更合適分類的空間
與PCA不同,更關心分類而不是方差
2、數學原理
目標: 找到該投影
LDA分類的一個目標是使得不同類別之間的距離越遠越好,同一類別之中的距離越近越好
每類樣例的均值:
投影后的均值:
投影后的兩類樣本中心點盡量分離:
對於下圖:
只最大化J(w)就可以了?
X1的方向可以最大化J(w),但是卻分的不好
散列值:樣本點的密集程度,值越大,越分散,反之,越集中
同類之間應該越密集些:
分母進行歸一化:如果分子、分母是都可以取任意值的,那就會使得有無窮解,我們將分母限制為長度為1
拉格朗日乘子法:
兩邊都乘以Sw的逆:
可見,w就是矩陣的特征向量了