TfidfVectorizer、CountVectorizer 和 TfidfTransformer 的簡單教程

本文轉載自查看原文 2020-08-12 14:57 604 深度學習

TfidfVectorizer、CountVectorizer 和 TfidfTransformer 是 sklearn 中處理自然語言常用的工具。TfidfVectorizer 相當於 CountVectorizer + TfidfTransformer。
下面先說 CountVectorizer。

CountVectorizer

CountVectorizer 的作用是將文本文檔轉換為計數的稀疏矩陣。下面舉一個具體的例子來說明(代碼來自於官方文檔)。

from sklearn.feature_extraction.text import CountVectorizer
# 定義一個 list，其中每個元素是一個文檔(一個句子)
corpus = [
    'This is the first document.',
    'This document is the second document.',
    'And this is the third one.',
    'Is this the first document?',
]
vectorizer = CountVectorizer()
# 將文本數據轉換為計數的稀疏矩陣
X = vectorizer.fit_transform(corpus)
# 查看每個單詞的位置
print(vectorizer.get_feature_names())
#輸出為 ['and', 'document', 'first', 'is', 'one', 'second', 'the', 'third', 'this']

# 由於 X 存儲為稀疏矩陣，需要轉換為 array 才能查看
print(X.toarray())
# 輸出為
# [[0 1 1 1 0 0 1 0 1]
#  [0 2 0 1 0 1 1 0 1]
#  [1 0 0 1 1 0 1 1 1]
#  [0 1 1 1 0 0 1 0 1]]

其中 vectorizer.get_feature_names()包含了數據中出現的所有單詞去重后的集合，相當於一個詞典。當然你也可以給 CountVectorizer 提供一個單獨的詞典，否則 CountVectorizer 會自己從數據中學習到詞典。

X.toarray()是查看文檔轉化后的計數矩陣。比如矩陣的第一行[0 1 1 1 0 0 1 0 1]對應於文檔中的第一句This is the first document.，表示詞典中對應位置的單詞出現的次數。

This is the first document轉為為計數矩陣后如下：

and	document	first	is	one	second	the	third	this
0	1	1	1	0	0	1	0	1

其他句子也是類似的規則，這里不再贅述。
原來文檔元素個數是 4，每個元素是一個句子，長度不固定。X.toarray()的維度是 (4,9)，
可以看到轉化之后的計數矩陣的元素是 4，每個元素的長度固定為 9，這里的 9 就是字典的長度。

TfidfTransformer

使用計算 tf-idf。tf 表示詞頻率，而 tf-idf 表示詞頻率乘以逆文檔頻率。這是信息檢索中常用的一種術語權重方案，在文檔分類中也得到了很好的應用。如果你還不了解 tf-idf，請閱讀阮一峰老師的這篇文章。
使用 TfidfTransformer 如下，輸出的 tf-idf 矩陣維度也是 (4,9)

from sklearn.feature_extraction.text import TfidfTransformer
 
transform = TfidfTransformer()    
Y = transform.fit_transform(X)    # 這里的輸入是上面文檔的計數矩陣
print(Y.toarray())                # 輸出轉換為tf-idf后的 Y 矩陣

輸出為：

[[0.         0.46979139 0.58028582 0.38408524 0.         0.
  0.38408524 0.         0.38408524]
 [0.         0.6876236  0.         0.28108867 0.         0.53864762
  0.28108867 0.         0.28108867]
 [0.51184851 0.         0.         0.26710379 0.51184851 0.
  0.26710379 0.51184851 0.26710379]
 [0.         0.46979139 0.58028582 0.38408524 0.         0.
  0.38408524 0.         0.38408524]]

TfidfVectorizer

TfidfVectorizer 相當於 CountVectorizer 和 TfidfTransformer 的結合使用。上面代碼先調用了 CountVectorizer，然后調用了 TfidfTransformer。使用 TfidfVectorizer 可以簡化代碼如下：

# 把每個設備的 app 列表轉換為字符串，以空格分隔
apps=deviceid_packages['apps'].apply(lambda x:' '.join(x)).tolist()
vectorizer=CountVectorizer()
transformer=TfidfTransformer()
# 原來的 app 列表 轉換為計數的稀疏矩陣。
cntTf = vectorizer.fit_transform(apps)
# 得到 tf-idf 矩陣
tfidf=transformer.fit_transform(cntTf)
# 得到所有的 APP 列表，相當於詞典
word=vectorizer.get_feature_names()

如果你覺得這篇文章對你有幫助，不妨點個贊，讓我有更多動力寫出好文章。

我的文章會首發在公眾號上，歡迎掃碼關注我的公眾號張賢同學。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 Scikit-learn CountVectorizer與TfidfVectorizer 機器學習之路：python 文本特征提取 CountVectorizer, TfidfVectorizer sklearn——CountVectorizer詳解 Python中的TfidfVectorizer參數解析 startUML簡單使用教程 Git和Github簡單教程 PyChram簡單使用教程 spring教程（一）：簡單實現 Duilib教程－簡單介紹 expect簡單教程