詳解使用EM算法的半監督學習方法應用於朴素貝葉斯文本分類


1.前言

  對大量需要分類的文本數據進行標記是一項繁瑣、耗時的任務,而真實世界中,如互聯網上存在大量的未標注的數據,獲取這些是容易和廉價的。在下面的內容中,我們介紹使用半監督學習和EM算法,充分結合大量未標記的樣本,以期獲得文本分類更高的准確率。本文使用的是多項式朴素貝葉斯作為分類器,通過EM算法進行訓練,使用有標記數據以及未標記的數據。研究了多類分類准確率與訓練集中未標記數據的比例之間的關系。並探索方法來降低EM過程的計算代價來加速訓練。結果顯示,半監督EM-NB分類器可以在只給2%標記數據情況下達到大於50%的准確率,在給定33%標記數據情況下達到大於70%的准確率。本文來源於參考中的附錄1,詳細代碼和介紹可以參見鏈接。

2.數據集介紹

3.模型介紹

4.關鍵代碼實現

5.實驗結果

6.總結

7.參考

附錄1:Text Classification Using EM and Semi-Supervised Learning

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM