1.前言
對大量需要分類的文本數據進行標記是一項繁瑣、耗時的任務,而真實世界中,如互聯網上存在大量的未標注的數據,獲取這些是容易和廉價的。在下面的內容中,我們介紹使用半監督學習和EM算法,充分結合大量未標記的樣本,以期獲得文本分類更高的准確率。本文使用的是多項式朴素貝葉斯作為分類器,通過EM算法進行訓練,使用有標記數據以及未標記的數據。研究了多類分類准確率與訓練集中未標記數據的比例之間的關系。並探索方法來降低EM過程的計算代價來加速訓練。結果顯示,半監督EM-NB分類器可以在只給2%標記數據情況下達到大於50%的准確率,在給定33%標記數據情況下達到大於70%的准確率。本文來源於參考中的附錄1,詳細代碼和介紹可以參見鏈接。
2.數據集介紹
3.模型介紹
4.關鍵代碼實現
5.實驗結果
6.總結
7.參考
附錄1:Text Classification Using EM and Semi-Supervised Learning
