前一陣被師妹問維生素論文里的特征選擇,Fisher score和Laplacian score兩種方法一直也沒講。於是趁把第四篇論文剛投完,馬上把這個總結一下。
Fisher特征選擇的主要思想是,認為鑒別性能強的特征的表現是類內部樣本點的距離盡可能小,類之間的距離盡量大。
假設數據中有n個樣本屬於C個類別(忽然覺得這個不是我師兄反復強調的多標簽分類問題嗎- -),每個類分別包含ni個樣本,mik表示第i類樣本的取值,單個特征的Fisher准則表示為:
Jfisher(k)=SB/SW
其中,k表示第k維,SB,SW表示第k維特征在訓練樣本集上的類間方差和類內方差。(之前本博客筆誤寫錯了,這里目前改過來了)
這樣我們就可以判斷出類別區分度好的特征(區分度越好fisher值越大)。
參考文獻: 基於Fisher准則和特征聚類的特征選擇 ,《計算機應用》 2007年11期
---------------------------------------------------------------------------------------------------
下面是Laplacian得分的判別法總結。
Laplacian score 算法是fisher score的推廣,優先選擇權重比較小的那些。
第一步,用所有數據建圖:
如果xi和xj是一類,或者是K近鄰,則xi和xj相連。
第二步,計算Sij。相鄰的點使用下面公式計算:
Sij = exp(- ||xi - xj||2 / t),其中t為給定的寬度,一般為1
第三步,使用譜圖理論的對角矩陣D來估計(下圖是推導過程)
因為大家都知道,拉普拉斯矩陣的公式:L=D-S,則fr = fr - frTD1 / (1TD1) 1
第四步,
對於每個特征的拉普拉斯矩陣,有
Lr=frTLfr/(frTDfr)
參考博客來自:http://www.cnblogs.com/chend926/articles/2511666.html
---------------------------------------------------------------------------------------------------
其他的特征選擇方法,包裹器方法如啟發式搜索,嵌入式方法如決策樹。