文本分類之特征選擇
1 研究背景
對於高緯度的分類問題,我們在分類之前一般會進行特征降維,特征降維的技術一般會有特征提取和特征選擇。而對於文本分類問題,我們一般使用特征選擇方法。
- 特征提取:PCA、線性判別分析
- 特征選擇:文檔頻數、信息增益、期望交叉熵、互信息、文本證據權、卡方等
特征選擇的目的一般是:
- 避免過擬合,提高分類准確度
-
通過降維,大大節省計算時間和空間
特征選擇基本思想:
1)構造一個評價函數
2)對特征空間的每個特征進行評分
3)對所有的特征按照其評估分的大小進行排序
4)從中選取一定數目的分值最高的特征項
2 常用特征選擇方法
c |
~c |
|
t |
A |
B |
~t |
C |
D |
2.1文檔頻率(Document Frequency,DF)
優點:實現簡單,計算量小。
缺點:基於低頻詞不含分類信息或者只包含極少量分類信息,沒有考慮類別信息,但實際並非如此。
2.2 互信息(Mutual Information, MI)
來自Claude Edwood Shannon的信息論,計算一個消息中兩個信號之間的相互依賴程度。在文本分類中是計算特征詞條與文本類的相互關聯程度。
特征t在類別中MI公式:
特征項t在整個樣本中的互信息值:
缺點:
對低頻詞十分敏感。若B為0時,無論A為多少算出來MI都一樣,而且都很大。
2.3信息增益(Information Gain, IG)
來源於信息熵,公式:
優點:信息增益考慮了特征未發生的情況,特征不出現的情況可能對文檔類別具有貢獻
缺點:對只出現在一類的低頻詞有一定程度的倚重,但這類低頻詞未必具有很好的分類信息。
2.4卡方檢驗(chi-square)
源於統計學的卡方分布(chi-square),從(類,詞項)相關表出發,考慮每一個類和每一個詞項的相關情況,度量兩者(特征和類別)獨立性的缺乏程度,卡方越大,獨立性越小,相關性越大。
特征t在類別中的CHI公式:
特征項t在整個樣本中的卡方值:
缺點:和IG一樣,對低頻詞有一定程度的倚重。
3實驗效果
任務:二元文本分類
數據集:
訓練集 |
測試集 |
|
BCII |
5494篇文檔(3536個正例,1959個負例) |
677篇文檔(338個負例,339個負例) |
BCIII |
2280篇文檔(1140個正例,1140個負例) |
6000篇文檔(910個正例,5090個負例) |
實驗方法:
-
文本預處理
-
特征選擇:一元詞特征
-
構建文本模型:BoW(布爾權值)
-
機器學習分類算法:SVM
-
評價指標:正類的F值
實驗結果:
BCII結果
BCIII結果
4 總結
DF |
IG |
CHI |
MI |
|
倚重低頻詞 |
N |
Y |
Y |
Y |
考慮類別信息 |
N |
Y |
Y |
Y |
考慮特征不出現的情況 |
N |
Y |
Y |
N |
經驗:
1)MI對於低頻詞過於敏感,對於特征出現頻率差異較大的數據集,MI效果十分不理想。
2)DF的效果並沒有想象中的差(除去停用詞),和IG、CHI差不多,不過要是降到很低維的時候,一般還是IG和CHI的效果比較好。
3)若是數據集低頻詞數量比較多,DF效果甚至好於IG和CHI。
4)當數據集是均勻分布時,CHI的效果要略優於IG,而當數據集類別分布極為不均時,IG的效果要優於CHI。
5)不同的分類算法、評價指標等得到的效果可能會有所不同。
我們最好是根據自己的數據集分布,想達到的目的(降維?精確度?),來選擇合適的特征選擇方法。
參考文獻:
[1] Y.Yang, J.Pedersen. A comparative study on feature selection in text categorization. 1997
[2] G. Foreman. An Extensive Empirical Study of Feature Selection Metrics for Text Classification. 2003
[3] 代六玲,黃河燕等. 中文文本分類中特征抽取方法的比較研究. 2004