Fisher Score的主要思想是鑒別性能較強的特征表現為類內距離盡可能小,類間距離盡可能大。
根據標准獨立計算每個特征的分數,然后選擇得分最高的前m個特征。缺點:忽略了特征的組合,無法處理冗余特征。
單獨計算每個特征的Fisher Score,計算規則:
定義數據集中共有n個樣本屬於C個類ω1, ω2…, ωC, 每一類分別包含ni個樣本。如下表
特征1 | 特征2 | 特征3 | 類 | |
樣本1 | 2 | 1 | 3 | 0 |
樣本2 | 4 | 5 | 7 | 1 |
樣本3 | 7 | 3 | 0 | 0 |
樣本4 | 9 | 2 | 5 | 0 |
樣本5 | 18 | 5 | 3 | 1 |
上表數據集中共有5個樣本,屬於兩個類0、1。
0類包含樣本1、樣本3和樣本4總共三個樣本。
1類包含樣本2和樣本5總共兩個樣本。
定義x(k) 表示樣本x在第k個特征上的取值,m i ( k )表示第i類樣本在第k個特征上的取值的均值,m ( k ) 表示所有類別的樣本在第k個特征上的取值的均值。
定義第k個特征在數據集上的類間方差為S B ( k ) ,
定義第k個特征在數據集上的類內方差為SW(k) ,
最后我們定義第k個特征在數據集上的Fisher Score為J fisher( k ) ,有
上表中第一個特征的Fisher Score為,計算出數據集中所有的特征的Fisher Score,進行排名。
原文鏈接:https://blog.csdn.net/qq_39923466/article/details/118809782