NLP-特征選擇


文本分類之特征選擇

1 研究背景

  對於高緯度的分類問題,我們在分類之前一般會進行特征降維,特征降維的技術一般會有特征提取和特征選擇。而對於文本分類問題,我們一般使用特征選擇方法。

  • 特征提取:PCA、線性判別分析
  • 特征選擇:文檔頻數、信息增益、期望交叉熵、互信息、文本證據權、卡方等

特征選擇的目的一般是:

  1. 避免過擬合,提高分類准確度
  2. 通過降維,大大節省計算時間和空間

特征選擇基本思想:

1)構造一個評價函數

2)對特征空間的每個特征進行評分

3)對所有的特征按照其評估分的大小進行排序

4)從中選取一定數目的分值最高的特征項

 

2 常用特征選擇方法

 

c

~c

t

A

B

~t

C

D

 

2.1文檔頻率(Document Frequency,DF)

優點:實現簡單,計算量小。

缺點:基於低頻詞不含分類信息或者只包含極少量分類信息,沒有考慮類別信息,但實際並非如此。

2.2 互信息(Mutual Information, MI)

  來自Claude Edwood Shannon的信息論,計算一個消息中兩個信號之間的相互依賴程度。在文本分類中是計算特征詞條與文本類的相互關聯程度。

特征t在類別MI公式:

特征項t在整個樣本中的互信息值:

缺點:

對低頻詞十分敏感。若B0時,無論A為多少算出來MI都一樣,而且都很大。

2.3信息增益(Information Gain, IG)

  來源於信息熵,公式:

優點:信息增益考慮了特征未發生的情況,特征不出現的情況可能對文檔類別具有貢獻

缺點:對只出現在一類的低頻詞有一定程度的倚重,但這類低頻詞未必具有很好的分類信息。

2.4卡方檢驗(chi-square)

  源於統計學的卡方分布(chi-square),從(類,詞項)相關表出發,考慮每一個類和每一個詞項的相關情況,度量兩者(特征和類別)獨立性的缺乏程度,卡方越大,獨立性越小,相關性越大。

特征t在類別中的CHI公式:

特征項t在整個樣本中的卡方值:

缺點:和IG一樣,對低頻詞有一定程度的倚重。

3實驗效果

任務:二元文本分類

數據集:

 

訓練集

測試集

BCII

5494篇文檔(3536個正例,1959個負例)

677篇文檔(338個負例,339個負例)

BCIII

2280篇文檔(1140個正例,1140個負例)

6000篇文檔(910個正例,5090個負例)

 

實驗方法:

  • 文本預處理
  • 特征選擇:一元詞特征
  • 構建文本模型:BoW(布爾權值)
  • 機器學習分類算法:SVM
  • 評價指標:正類的F

實驗結果:

BCII結果

BCIII結果

4 總結

 

DF

IG

CHI

MI

倚重低頻詞

N

Y

Y

Y

考慮類別信息

N

Y

Y

Y

考慮特征不出現的情況

N

Y

Y

N

 

經驗:

1MI對於低頻詞過於敏感,對於特征出現頻率差異較大的數據集,MI效果十分不理想。

2DF的效果並沒有想象中的差(除去停用詞),和IGCHI差不多,不過要是降到很低維的時候,一般還是IGCHI的效果比較好。

3)若是數據集低頻詞數量比較多,DF效果甚至好於IGCHI

4)當數據集是均勻分布時,CHI的效果要略優於IG,而當數據集類別分布極為不均時,IG的效果要優於CHI

5)不同的分類算法、評價指標等得到的效果可能會有所不同。

 

我們最好是根據自己的數據集分布,想達到的目的(降維?精確度?),來選擇合適的特征選擇方法。

 

參考文獻:

[1] Y.Yang, J.Pedersen. A comparative study on feature selection in text categorization. 1997

[2] G. Foreman. An Extensive Empirical Study of Feature Selection Metrics for Text Classification. 2003

[3] 代六玲,黃河燕等. 中文文本分類中特征抽取方法的比較研究. 2004

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM