貝葉斯分類首先准備好數據材料
第一次獲取20newsgroups時會花費數分鍾時間來獲取數據,通過獲得target_names可以查看其中的類型。
為了進行分類,采用詞袋模型的方法,即統計每篇新聞的單詞,不考慮單詞間的聯系,僅僅考慮它們出現的頻率。
11314代表有11314篇文章,130107意思為詞典中一共有130107個單詞,這11314篇文章中所有的單詞都來自於此。
我們可以獲得列表中每個對象(文章),並通過一些屬性獲得我們想要的信息
接下來進行貝葉斯分類,這里采用MultinomialNB
模型訓練完成后對照測試集檢查效果
對於這個模型的改進,可以有以下幾種方法
1.詞頻反轉,不過看起來不太明顯
2.去除停用詞
一下子提高3個百分點
最后是支持向量機
可以通過修改參數進行調整模型,參考http://scikit-learn.org/stable/modules/generated/sklearn.linear_model.SGDClassifier.html