之前簡要地介紹了一下線性判別函數的的基本性質,接下來我們進行更加詳細的討論。
文中大部分公式和圖表來自 MLPP 和 PRML
我們將樣本的分布用多元正態分布來近似,為了更加了解這個表達式的含義,我們對協方差矩陣做特征值分解,即Σ = UΛUT
然后將協方差矩陣的逆用同樣方法分解,即

代入多元正態分布的模型中,能夠得到

這個公式應該很熟悉了,當等式右邊取一個常數時就是橢圓的表達形式。以相同的等高線定義的距離的叫做馬氏距離(Mahalanobis distance)。可以看出,我們熟悉的歐式距離就是馬氏距離的一種特殊的形式。

我個人的理解是,馬氏距離相當於通過樣本之間的協方差對歐式距離做了一個變換,使得距離被“歸一化”能夠更加准確地反映樣本之間的差異關系,否則可能因為量綱問題導致結果的不准確。以上圖為例,假設我們要探究薪水和身高的關系,X1代表薪水,X2代表身高。很顯然等高線在X1方向會“狹長”很多。如果用歐式距離的話,(5010,180)和(5000,190)對(5000,180)是等距離的,但這個顯然不符合邏輯。而用馬氏距離就能夠解決這個問題。
樣本類均值的極大似然估計是樣本的平均向量,而協方差矩陣的極大似然估計是樣本的協方差矩陣。
這個公式的推導要用到trace trick, 在此不做詳述。值得注意的是,這個極大似然估計是有偏的,通常用一種無偏估計來代替,即n分之一分母變成n-1。
那么用高斯分布來近似密度函數的意義是什么呢?原因在於高斯分布是滿足最大熵條件的。定義一個連續分布的信息熵(也叫微分熵)如下:
![]()
學過物理的同學都知道,熵是一種無序的程度的度量。將這個概念類比過來,對於隨機變量來說,信息熵就代表着不確定性。當一個隨機變量很確定取到某一特定的值時,它的信息熵會很低。反之,當它取值很分散時,信息熵會很高。
現在假設我們已知一個隨機變量的均值和方差,希望求得在最大熵條件下的密度函數。這個問題可以轉化成優化問題,其中限制條件為:

運用拉格朗日乘子法,我們可以得出,高斯分布的信息熵最大。
換句話說,雖然擁有相同均值和方差的分布有很多個,但高斯分布帶來了最少的附加條件,包含的信息量最大,因此也更加能夠准確地概括所有的情況。這也是我們在不知道分布類型的情況下,選擇正態分布的原因。
接下來我們具體分析一下LDA的算法。
在判別函數的公式中,令

考慮2個類別的情況,分為正類的概率可以表示為
將公式變形:

定義:

最后我們可以得到:
![]()
這個公式可以很清楚地看出LDA和邏輯回歸的緊密關系。對於LDA來說,判別的依據就是:將x減去x0后,將其投影到線段w上,然后觀測大小。下圖為協方差矩陣為單位陣時的圖示。
另外,從公式可以看出先驗概率的影響。當類1的先驗概率增加時,x0向類0的方向移動,那么x-x0在類1方向上投影增加,也就以更大的概率取到類1。
