sklearn: TfidfVectorizer 中文處理及一些使用參數

本文轉載自查看原文 2018-07-22 22:40 3494 python學習

TfidfVectorizer可以把原始文本轉化為tf-idf的特征矩陣，從而為后續的文本相似度計算，主題模型，文本搜索排序等一系列應用奠定基礎。基本應用如：

#coding=utf-8
from sklearn.feature_extraction.text import TfidfVectorizer
document = ["I have a pen.",
            "I have an apple."]
tfidf_model = TfidfVectorizer().fit(document)
sparse_result = tfidf_model.transform(document)     # 得到tf-idf矩陣，稀疏矩陣表示法
print(sparse_result)
# (0, 3)    0.814802474667
# (0, 2)    0.579738671538
# (1, 2)    0.449436416524
# (1, 1)    0.631667201738
# (1, 0)    0.631667201738
print(sparse_result.todense())                     # 轉化為更直觀的一般矩陣
# [[ 0.          0.          0.57973867  0.81480247]
#  [ 0.6316672   0.6316672   0.44943642  0.        ]]
print(tfidf_model.vocabulary_)                      # 詞語與列的對應關系
# {'have': 2, 'pen': 3, 'an': 0, 'apple': 1}

https://blog.csdn.net/blmoistawinde/article/details/80816179

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 sklearn: TfidfVectorizer 中文處理及一些使用參數 sklearn: CountVectorize處理及一些使用參數文本數據預處理：sklearn 中 CountVectorizer、TfidfTransformer 和 TfidfVectorizer WinForm -- CEF的使用和一些坑處理 tf idf公式及sklearn中TfidfVectorizer sklearn文本特征提取——TfidfVectorizer sklearn 下 CountVectorizer\TfidfVectorizer\TfidfTransformer 函數詳解 Python中的TfidfVectorizer參數解析用python + openpyxl處理excel(07+)文檔 + 一些中文處理的技巧 ssm使用@RequestBody傳參數時的一些坑