技術積累--常用的文本分類的特征選擇算法


常采用特征選擇方法。常見的六種特征選擇方法:
1)DF(Document Frequency) 文檔頻率
DF:統計特征詞出現的文檔數量,用來衡量某個特征詞的重要性
2)MI(Mutual Information) 互信息法
互信息法用於衡量特征詞與文檔類別直接的信息量。
如果某個特征詞的頻率很低,那么互信息得分就會很大,因此互信息法傾向"低頻"的特征詞。
相對的詞頻很高的詞,得分就會變低,如果這詞攜帶了很高的信息量,互信息法就會變得低效。
3)(Information Gain) 信息增益法
通過某個特征詞的缺失與存在的兩種情況下,語料中前后信息的增加,衡量某個特征詞的重要性。
4)CHI(Chi-square) 卡方檢驗法
利用了統計學中的"假設檢驗"的基本思想:首先假設特征詞與類別直接是不相關的
如果利用CHI分布計算出的檢驗值偏離閾值越大,那么更有信心否定原假設,接受原假設的備則假設:特征詞與類別有着很高的關聯度。
5)WLLR(Weighted Log Likelihood Ration)加權對數似然
6)WFO(Weighted Frequency and Odds)加權頻率和可能性
 
 
mark:具體做法有時間繼續整理


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM