Fisher 線性分類器--轉


原文地址:http://blog.csdn.net/htyang725/article/details/6571550

Fisher 線性分類器由R.A.Fisher在1936年提出,至今都有很大的研究意義,下面介紹Fisher分類器的Fisher准則函數

 

Fisher准則函數

在模式識別的分類算法中,大概可以分為兩類,一種是基於貝葉斯理論的分類器,該類型分類器也稱為參數判別方法,根據是基於貝葉斯理論的分類器必須根據所提供的樣本數據求出先驗概率和類概率密度函數的類型和參數;另一種是非參數判別方法,它傾向於由所提供樣本數據直接求出在某一准則函數下的最優參數,這種方法必須由分類器設計者首先確定准則函數,並根據樣本數據和該函數最優的原理求出函數的參數。基於貝葉斯理論的分類器對於設計者來說比較死板和原則,它必須知道類概率密度函數和先驗概率才能估算出判別函數,但是實際上樣本數據的類概率密度函數的類型和參數都是不知道的,這給參數判別方法帶來了麻煩;而非參數方法的優點在於,當設計者設計好准則函數之后,便可用樣本數據優化分類器參數,難點在於准則函數的設計,因此,兩種方法各有千秋,互為補充!

 

設樣本d維特征空間中描述,則兩類別問題中線性判別函數的一般形式可表示成

   

,其中WT表示垂直於超平面的法向量,在二維的情況下,便是判別直線的法向量,W0稱為閾權值,它只決定超平面在空間上的上下或者左右平移的位置。

在使用線性分類器時,樣本的分類由其判別函數值決定,而每個樣本的判別函數值是其各分量的線性加權和再加上一閾值w0。如果我們只考慮各分量的線性加權和,則它是各樣本向量與向量W的向量點積。如果向量W的幅度為單位長度,則線性加權和又可看作各樣本向量在向量W上的投影。顯然樣本集中向量投影的分布情況與所選擇的W向量有關。如下圖:

圖1

紅色跟藍色分別為兩類樣本,顯然,從分類的角度來看,W1要比W2要好,因此,Fisher准則函數的基本思路是向量W的方向選擇應能使兩類樣本投影的均值之差盡可能大些,而使類內樣本的離散程度盡可能小。

 

為了給出Fisher准則函數的數學定義,我們必須定義一些基本參量,如下:

1 樣本在d維特征空間的一些描述量。

  (1) 各類樣本均值向量mi

 

(2) 樣本類內離散度矩陣Si與總類內離散度矩陣Sw

注釋:類內離散矩陣Si在形式上與協方差矩陣很相似,但協方差矩陣是一種期望值,而類內離散矩陣只是表示有限個樣本在空間分布的離散程度

2 在一維Y空間

  (1) 各類樣本均值

      (2) 樣本類內離散度和總類內離散度

 

在定義了上述一系列描述量后,可以用這些量給出Fisher准則的函數形式。根據Fisher選擇投影方向W的原則,即使原樣本向量在該方向上的投影能兼顧類間分布盡可能分開,類內樣本投影盡可能密集的要求,用以評價投影方向W的函數為:

顯然,准則函數的函數值跟總類內離散度成反比,跟樣本差值的均方成正比,也就說,兩類樣本的均值相差越大,函數值越大,反之,則越小,類內離散度越小,函數值越大,反之則越小。同一類的樣本,離散度應該要小。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM