【原】文本挖掘——特征選擇


特征選擇有很多方法,看了很多資料后,我總結了以下幾種,以后有新內容會隨時修改

1.DF——基於文檔頻率的特征提取方法

概念:DF(document frequency)指出現某個特征項的文檔的頻率。

步驟:1).從訓練語料中統計出保函某個特征的文檔頻率(個數)

     2).根據設定的閾值(min&max),當該特征的DF值小於某個閾值時,去掉。因為沒有代表性。當該特征的DF值大於某個閾值時,去掉。因為這個特征使文檔出現的頻率太高,沒有區分度。

優點:降低向量計算的復雜度,去掉部分噪聲,提高分類的准確率,且簡單易行。

缺點:對於出現頻率低但包含較多信息的特征,對分類很重要,去掉會降低准確率

 

2.IG——信息增益

概念:IG(Information Gain)根據某特征項t(i)能為整個分類提供的信息量來很衡量該特征的重要程度,來決定對該特征的取舍。通俗點,什么是一個特征的信息增益呢,說白了就是有這個特征和沒有這個特征對整個分類能提供的信息量的差別。信息量用什么衡量?熵。所以一個特征的信息增益=不考慮任何特征時文檔所含的熵-考慮該特征后文檔的熵(具體公式等我學會這個博客怎么用公式編輯器后再加上來)

步驟:1.計算不含任何特征整個文檔的熵

   2.計算包含該特征的文檔的熵

   3.前者-后者

優點:准,因為你選擇的特征是對分類有用的特征(這里需不需要設置閾值?)

缺點:實際情況里,有些信息增益較高的特征出現的頻率較低(?跟頻率有毛線關系?還是這里也要把所有特征的信息增益算出來然后從高到低排列?可是這根頻率也沒有關系啊。哦,是跟公式計算有關。這里沒寫公式,所有有疑問,回頭把公式補上,爭取用最簡單的話描述出來)

解決方法:1).訓練語料中出現的所有詞的信息增益

     2).指定閾值。低於閾值的,刪。或者指定選擇的特征數,把所有特征的信息增益降序排列來選擇。

 

3.CHI——卡方統計量

概念:CHI衡量的是特征項t(i)和C(j)之間的相關聯程度。假設t(i)和C(j)之間符合具有一階自由度的卡方分布,如果特征對於某類的卡方統計值越高,它與該類之間的相關性越大,攜帶的信息越多,繁殖則越少。

步驟: 兩種方法:1.計算特征對每個類別的CHI值,在整個語料上分貝找每個類別的最大的值,把這個值設置為閾值,低於閾值的,刪。

         2.計算個特征對於各類別的平均值,以這個平均值作為各類別的CHI值(為什么要這樣做呢?可不可以取中值啥的?這個效果怎么樣?)

優點:待補充

缺點:待補充

 

4.MI——互信息法

概念:MI(mutual information)指互信息,越大,則特征t(i)和C(j)之間共同出現的程度越大,如果兩者無關,那么互信息=0。

步驟:兩種方法,和CHI一樣,最大值方法和平均值法

優點:待補充

缺點:待補充

 

還有一些其他的,針對中文的,英文的,等等,周一回來補充好了,順便把公式補上。今晚還要趕火車 = =


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM