scikit-learn包下有計算TF-IDF的api,其效果也很不錯。首先得安裝Scikit-clearn
Scikit-learn 依賴:
- Python (>= 2.7 or >= 3.4),
- NumPy (>= 1.8.2),
- SciPy (>= 0.13.3).
pip install scikit-learn
計算TF-IDF
scikit-learn包進行TF-IDF分詞權重計算主要用到了兩個類:CountVectorizer和TfidfTransformer。其中
CountVectorizer是通過fit_transform函數將文本中的詞語轉換為詞頻矩陣,矩陣元素a[i][j] 表示j詞在第i個文本下的詞頻。即各個詞語出現的次數,通過get_feature_names()可看到所有文本的關鍵字,通過toarray()可看到詞頻矩陣的結果。