特征選擇的一點個人筆記


前一陣被師妹問維生素論文里的特征選擇,Fisher score和Laplacian score兩種方法一直也沒講。於是趁把第四篇論文剛投完,馬上把這個總結一下。

Fisher特征選擇的主要思想是,認為鑒別性能強的特征的表現是類內部樣本點的距離盡可能小,類之間的距離盡量大。

       假設數據中有n個樣本屬於C個類別(忽然覺得這個不是我師兄反復強調的多標簽分類問題嗎- -),每個類分別包含ni個樣本,mik表示第i類樣本的取值,單個特征的Fisher准則表示為:

       Jfisher(k)=SB/SW

其中,k表示第k維,SBSW表示第k維特征在訓練樣本集上的類間方差和類內方差。(之前本博客筆誤寫錯了,這里目前改過來了)

這樣我們就可以判斷出類別區分度好的特征(區分度越好fisher值越大)。

參考文獻: 基於Fisher准則和特征聚類的特征選擇 ,《計算機應用》 2007年11期

---------------------------------------------------------------------------------------------------

下面是Laplacian得分的判別法總結。

Laplacian score 算法是fisher score的推廣,優先選擇權重比較小的那些。

第一步,用所有數據建圖:

如果xixj是一類,或者是K近鄰,則xixj相連。

第二步,計算Sij。相鄰的點使用下面公式計算:

Sij = exp(- ||xi - xj||2 / t),其中t為給定的寬度,一般為1

第三步,使用譜圖理論的對角矩陣D來估計(下圖是推導過程)

因為大家都知道,拉普拉斯矩陣的公式:L=D-S,則fr = fr - frTD1 / (1TD1) 1

第四步,

對於每個特征的拉普拉斯矩陣,有

Lr=frTLfr/(frTDfr)

參考博客來自:http://www.cnblogs.com/chend926/articles/2511666.html

---------------------------------------------------------------------------------------------------

其他的特征選擇方法,包裹器方法如啟發式搜索,嵌入式方法如決策樹。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM