[學習記錄]sklearn貝葉斯及SVM文本分類

本文轉載自查看原文 2018-07-13 21:33 3652 學習記錄

貝葉斯分類首先准備好數據材料

第一次獲取20newsgroups時會花費數分鍾時間來獲取數據，通過獲得target_names可以查看其中的類型。

為了進行分類，采用詞袋模型的方法，即統計每篇新聞的單詞，不考慮單詞間的聯系，僅僅考慮它們出現的頻率。

11314代表有11314篇文章，130107意思為詞典中一共有130107個單詞，這11314篇文章中所有的單詞都來自於此。

我們可以獲得列表中每個對象（文章），並通過一些屬性獲得我們想要的信息

接下來進行貝葉斯分類，這里采用MultinomialNB

模型訓練完成后對照測試集檢查效果

對於這個模型的改進，可以有以下幾種方法

1.詞頻反轉，不過看起來不太明顯

2.去除停用詞

一下子提高3個百分點

最后是支持向量機

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 機器學習實戰1：朴素貝葉斯模型:文本分類+垃圾郵件分類 python調用sklearn模塊實現朴素貝葉斯模型(NBC)進行文本分類——以新聞分類為例基於mllib的spark中文文本分類（朴素貝葉斯）【十大算法實現之naive bayes】朴素貝葉斯算法之文本分類算法的理解與實現朴素貝葉斯文本分類代碼（詳解）朴素貝葉斯文本分類java實現文本分類與SVM sklearn 基本的文本分類【機器學習實驗】使用朴素貝葉斯進行文本的分類機器學習Sklearn系列：（四）朴素貝葉斯