Python中計算TF-IDF(scikit-learn)

本文轉載自查看原文 2018-10-24 17:08 795 數據挖崛算法

scikit-learn包下有計算TF-IDF的api，其效果也很不錯。首先得安裝Scikit-clearn

Scikit-learn 依賴:

pip install scikit-learn

計算TF-IDF

　　scikit-learn包進行TF-IDF分詞權重計算主要用到了兩個類：CountVectorizer和TfidfTransformer。其中

　　CountVectorizer是通過fit_transform函數將文本中的詞語轉換為詞頻矩陣，矩陣元素a[i][j] 表示j詞在第i個文本下的詞頻。即各個詞語出現的次數，通過get_feature_names()可看到所有文本的關鍵字，通過toarray()可看到詞頻矩陣的結果。

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 python使用scikit-learn計算TF-IDF [python] 使用scikit-learn工具計算文本TF-IDF值 python 分詞計算文檔TF-IDF值並排序 Python 安裝scikit-learn 通過 numpy 和 scikit-learn 計算 PCA 實例數據預處理（Python scikit-learn） TF-IDF介紹 TF-IDF及其算法 python的scikit-learn的主要模塊和基本使用 TF-IDF算法（2）—python實現