准則
采用一種分類形式后,就要采用准則來衡量分類的效果,最好的結果一般出現在准則函數的極值點上,因此將分類器的設計問題轉化為求准則函數極值問題,即求准則函數的參數,如線性分類器中的權值向量。
分類器設計准則:FIsher准則、感知機准則、最小二乘(最小均方誤差)准則
Fisher准則
Fisher線性判別分析LDA(Linearity Distinction Analysis)
基本思想:對於兩個類別線性分類的問題,選擇合適的閾值,使得Fisher准則函數達到極值的向量作為最佳投影方向,與投影方向垂直的超平面就是兩類的分類面,使得樣本在該方向上投影后,達到最大的類間離散度和最小的類內離散度。
Fisher線性判別並不對樣本的分布進行任何假設,但在很多情況下,當樣本維數比較高且樣本數也比較多時,投影到一維空間后樣本接近正態分布,這時可以在一維空間中用樣本擬合正態分布,用得到的參數來確定分類閾值。
。。類間離差平方和最大,類內離差平方和最小的投影方向。准則函數:組間離差平方和/組內離差平方和;准則:超過閾值?
感知機准則
基本思想:對於線性判別函數,當模式的維數已知時,判別函數的形式實際上就已經確定下來,線性判別的過程即是確定權向量𝑤 。感知機是一種神經網絡模型,其特點是隨意確定判別函數初始值,在對樣本分類訓練過程中,針對分類錯誤的樣本不斷進行權值修正,逐步迭代直至最終分類符合預定標准,從而確定權向量值。可以證明感知機是一種收斂算法,只要模式類別是線性可分的,就可以在有限的迭代步數里求出權向量的解。
優點:簡單、便於實現。
缺點:結果不唯一,在線性不可分情況下不收斂。
。。給定初始權值向量,通過樣本的訓練分類過程逐漸修正權值直到最終確定。准則函數:錯分樣本數,准則:錯分樣本數為0
上述兩個准則的區別和聯系
Fisher線性判別是把線性分類器的設計分為兩步,一是確定最優方向,二是在這個方向上確定分類閾值;感知機則是通過不斷迭代直接得到完整的線性判別函數。
Fisher線性判別根據閾值選擇投影方向達到預期分類效果,而感知機算法因為不是收斂算法,可能不能得到很好的分類結果。
最小二乘准則
基於最小二乘法求線性組合的權值
對於異常值非常敏感。