[學習記錄]sklearn貝葉斯及SVM文本分類


貝葉斯分類首先准備好數據材料

 第一次獲取20newsgroups時會花費數分鍾時間來獲取數據,通過獲得target_names可以查看其中的類型。

為了進行分類,采用詞袋模型的方法,即統計每篇新聞的單詞,不考慮單詞間的聯系,僅僅考慮它們出現的頻率。

11314代表有11314篇文章,130107意思為詞典中一共有130107個單詞,這11314篇文章中所有的單詞都來自於此。

我們可以獲得列表中每個對象(文章),並通過一些屬性獲得我們想要的信息

接下來進行貝葉斯分類,這里采用MultinomialNB

模型訓練完成后對照測試集檢查效果

對於這個模型的改進,可以有以下幾種方法

1.詞頻反轉,不過看起來不太明顯

2.去除停用詞

一下子提高3個百分點

最后是支持向量機

可以通過修改參數進行調整模型,參考http://scikit-learn.org/stable/modules/generated/sklearn.linear_model.SGDClassifier.html

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM