判別分析--費希爾判別、貝葉斯判別、距離判別


判別分析

比較理論一些來說,判別分析就是根據已掌握的每個類別若干樣本的數據信息,總結出客觀事物分類的規律性,建立判別公式和判別准則;在遇到新的樣本點時,再根據已總結出來的判別公式和判別准則,來判斷出該樣本點所屬的類別。

1  概述

三大類主流的判別分析算法,分別為費希爾(Fisher)判別、貝葉斯(Bayes)判別和距離判別。

具體的,在費希爾判別中我們將主要討論線性判別分析(Linear Discriminant Analysis,簡稱LDA)及其原理一般化后的衍生算法,即二次判別分析(Quadratic Discriminant Analysis,簡稱QDA);而在貝葉斯判別中將介紹朴素貝葉斯分類(Naive Bayesian Classification)算法;距離判別我們將介紹使用最為廣泛的K最近鄰(k-Nearest Neighbor,簡稱kNN)及有權重的K最近鄰( Weighted k-Nearest Neighbor)算法。

1.1 費希爾判別

費希爾判別的基本思想就是投影,即將高維空間的點向低維空間投影,從而簡化問題進行處理。

投影方法之所以有效,是因為在原坐標系下,空間中的點可能很難被划分開,如圖中,當類別和類別中的樣本點都投影至圖中的原坐標軸后,出現了部分樣本點的影子重合的情況,這樣就無法將分屬於這兩個類別的樣本點區別開來;而如果使用如圖8-2中的投影軸進行投影,所得到的影子就可以被類別划分線明顯地區分開來,也就是得到了我們想要的判別結果。

 

                                 原坐標軸下判別

 

                                投影軸下判別

我們可以發現,費希爾判別最重要的就是選擇出適當的投影軸,對該投影軸方向上的要求是:保證投影后,使每一類之內的投影值所形成的類內離差盡可能小,而不同類之間的投影值所形成的類間離差盡可能大,即在該空間中有最佳的可分離性,以此獲得較高的判別效果。

對於線性判別,一般來說,可以先將樣本點投影到一維空間,即直線上,若效果不明顯,則可以考慮增加一個維度,即投影至二維空間中,依次類推。而二次判別與線性判別的區別就在於投影面的形狀不同,二次判別使用若干二次曲面,而非直線或平面來將樣本划分至相應的類別中。

相比較來說,二次判別的適用面比線性判別函數要廣。這是因為,在實際的模式識別問題中,各類別樣本在特征空間中的分布往往比較復雜,因此往往無法用線性分類的方式得到令人滿意的效果。這就必須使用非線性的分類方法,而二次判別函數就是一種常用的非線性判別函數,尤其是類域的形狀接近二次超曲面體時效果更優。

1.2 貝葉斯判別

朴素貝葉斯的算法思路簡單且容易理解。

理論上來說,它就是根據已知的先驗概率 P(A|B),利用貝葉斯公式

求后驗概率P(B|A),即該樣本屬於某一類的概率,然后選擇具有最大后驗概率的類作為該樣本所屬的類。

通俗地說,就是對於給出的待分類樣本,求出在此樣本出現條件下各個類別出現的概率,哪個最大,就認為此樣本屬於哪個類別。

朴素貝葉斯的算法原理雖然朴素,但用起來卻很有效,其優勢在於不怕噪聲和無關變量。而明顯的不足之處則在於,它假設各特征屬性之間是無關的,當這個條件成立時,朴素貝葉斯的判別正確率很高,但不幸的是,在現實中各個特征屬性間往往並非獨立,而是具有較強相關性的,這樣就限制了朴素貝葉斯分類的能力。

1.3 距離判別

距離判別的基本思想,就是根據待判定樣本與已知類別樣本之間的距離遠近做出判別。具體的,即根據已知類別樣本信息建立距離判別函數式,再將各待判定樣本的屬性數據逐一代入計算,得到距離值,根據距離值將樣本判入距離值最小的類別的樣本簇。

K最近鄰算法則是距離判別中使用最為廣泛的,即如果一個樣本在特征空間中的K個最相似/最近鄰的樣本中的大多數屬於某一個類別,則該樣本也屬於這個類別。

K最近鄰方法在進行判別時,由於其主要依靠周圍有限鄰近樣本的信息,而不是靠判別類域的方法來確定所屬類別,因此對於類域的交叉或重疊較多的待分樣本集來說,該方法較其他方法要更為適合。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM