特征選擇的一點個人筆記

本文轉載自查看原文 2018-09-11 18:13 2171 機器學習

前一陣被師妹問維生素論文里的特征選擇，Fisher score和Laplacian score兩種方法一直也沒講。於是趁把第四篇論文剛投完，馬上把這個總結一下。

Fisher特征選擇的主要思想是，認為鑒別性能強的特征的表現是類內部樣本點的距離盡可能小，類之間的距離盡量大。

假設數據中有n個樣本屬於C個類別（忽然覺得這個不是我師兄反復強調的多標簽分類問題嗎- -），每個類分別包含n_i個樣本，m_i^k表示第i類樣本的取值，單個特征的Fisher准則表示為：

J_fisher(k)=S_B/S_W

其中,k表示第k維，S_B，S_W表示第k維特征在訓練樣本集上的類間方差和類內方差。(之前本博客筆誤寫錯了，這里目前改過來了)

這樣我們就可以判斷出類別區分度好的特征(區分度越好fisher值越大)。

參考文獻：基於Fisher准則和特征聚類的特征選擇，《計算機應用》 2007年11期

---------------------------------------------------------------------------------------------------

下面是Laplacian得分的判別法總結。

Laplacian score 算法是fisher score的推廣，優先選擇權重比較小的那些。

第一步，用所有數據建圖：

如果x_i和x_j是一類，或者是K近鄰，則x_i和x_j相連。

第二步，計算S_ij。相鄰的點使用下面公式計算：

S_ij= exp(- ||x_i- x_j||²/ t),其中t為給定的寬度，一般為1

第三步，使用譜圖理論的對角矩陣D來估計（下圖是推導過程）

因為大家都知道，拉普拉斯矩陣的公式：L=D-S，則f_r= f_r- f_r^TD1 / (1^TD1) 1

第四步，

對於每個特征的拉普拉斯矩陣，有

L_r=f_r^TLf_r/(f_r^TDf_r)

參考博客來自：http://www.cnblogs.com/chend926/articles/2511666.html

---------------------------------------------------------------------------------------------------

其他的特征選擇方法，包裹器方法如啟發式搜索，嵌入式方法如決策樹。

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 技術選型的一點個人思考 LeetCode刷題的一點個人建議和心得特征選擇---SelectKBest 特征選擇 mRMR特征選擇特征選擇-嵌入 sklearn——特征選擇文本特征選擇特征選擇方法特征選擇算法