Fisher Score算法思想


Fisher Score的主要思想是鉴别性能较强的特征表现为类内距离尽可能小,类间距离尽可能大。

根据标准独立计算每个特征的分数,然后选择得分最高的前m个特征。缺点:忽略了特征的组合,无法处理冗余特征。

单独计算每个特征的Fisher Score,计算规则:

定义数据集中共有n个样本属于C个类ω1, ω2…, ωC, 每一类分别包含ni​个样本。如下表

  特征1 特征2 特征3
样本1 2 1 3 0
样本2 4 5 7 1
样本3 7 3 0 0
样本4 9 2 5 0
样本5 18 5 3 1

上表数据集中共有5个样本,属于两个类0、1。

0类包含样本1、样本3和样本4总共三个样本。
1类包含样本2和样本5总共两个样本。

 定义x(k) 表示样本x在第k个特征上的取值,m i ( k )表示第i类样本在第k个特征上的取值的均值,m ( k ) 表示所有类别的样本在第k个特征上的取值的均值。

定义第k个特征在数据集上的类间方差为S B ( k ) ,

 定义第k个特征在数据集上的类内方差为SW(k)   ,   

 

最后我们定义第k个特征在数据集上的Fisher Score为J fisher( k ) ,

上表中第一个特征的Fisher Score为,计算出数据集中所有的特征的Fisher Score,进行排名。

原文链接:https://blog.csdn.net/qq_39923466/article/details/118809782


免责声明!

本站转载的文章为个人学习借鉴使用,本站对版权不负任何法律责任。如果侵犯了您的隐私权益,请联系本站邮箱yoyou2525@163.com删除。



 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM