彭等人提出了一種特征選擇方法,可以使用互信息,相關或距離/相似性分數來選擇特征。目的是在存在其他所選特征的情況下通過其冗余來懲罰特征的相關性。特征集S與類c的相關性由各個特征f i和類c之間的所有互信息值的平均值定義,如下所示:

集合S中所有特征的冗余是特征f i和特征f j之間的所有互信息值的平均值:

mRMR標准是上面給出的兩種措施的組合,定義如下:

如果使用增量搜索方法(incremental search methods)可以寫成優化問題:

即在已選擇特征的基礎上,在剩下的特征空間中找到能使上式最大的那個特征。其實相當於對剩下的每個特征進行計算然后排序,因此,我認為mRMR的實質其實是用一個標准(相關性-冗余性)來對特征進行排序,只不過這個標准不是針對每個特征單獨計算的,是要先有一個候選子集,然后才能計算。
mRMR算法是理論上最佳的最大依賴性( maximum-dependency)特征選擇算法的近似,其最大化所選特征和分類變量的聯合分布之間的互信息。這里提到最大依賴性,其實我們的目的就是找到一個特征子集,使該特征子集與標簽有最大的依賴性,但是多變量的密度估計比較麻煩,要計算很大的協方差,因此難以實際應用,mRMR證明了它在使用增量搜索方法(每次添加一個特征)時,理論上和最大依賴性特征選擇算法一樣,論文也提到說該搜索方法為一階增量搜索(first order incremental search)。具體證明可以參考論文。

由於mRMR用一系列小得多的問題近似於組合估計問題,每個問題只涉及兩個變量,因此使用更健壯的成對聯合概率。在某些情況下,算法可能低估了特征的有用性,因為它無法測量可以增加相關性的特征之間的相互作用。當特征單獨無用時,這會導致性能不佳,但在組合時很有用(當類是奇偶校驗功能時會發現病態情況)的特征)。總體而言,該算法比理論上最佳的最大依賴性選擇更有效(就所需數據量而言),但產生具有很少成對冗余的特征集。
mRMR是一大類過濾方法的實例,它以不同的方式在相關性和冗余之間進行權衡。
這里有個問題,
比如總共有10維特征,我們現在選擇了4維特征,那剩下的6維特征分別計算該特征與標簽的互信息(relevance)和該特征與這4維特征的互信息均值(redundancy),然后兩者做差或者算個比值,記為λ,那么這6個特征中λ最大的特征就把它添加進來,然后再繼續該過程。那只能說新添加的這個特征比起剩下的5維特征要更好,但是我們不知道,現在構成的5個特征是否就要比一開始的4個特征更好?這個就很難說了。
所以作者在論文里是嘗試了two-stage的方法,先用mRMR生成一個候選特征集,然后再用更復雜的wrapper的方式進行第二次特征選擇。
