sklearn 詞袋 CountVectorizer - 碼上歡樂

相關內容簡體繁體

sklearn 詞袋 CountVectorizer

本文轉載自查看原文 2017-11-09 11:57 1026 python/ 機器學習

from sklearn.feature_extraction.text import CountVectorizer

texts=["dog cat fish","dog cat cat","fish bird", 'bird']
cv = CountVectorizer()
cv_fit=cv.fit_transform(texts)

print(cv.get_feature_names())
print(cv_fit.toarray())
#['bird', 'cat', 'dog', 'fish']
#[[0 1 1 1]
# [0 2 1 0]
# [1 0 0 1]
# [1 0 0 0]]

print(cv_fit.toarray().sum(axis=0))
#[2 3 2 2]

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 機器學習入門-文本數據-構造Ngram詞袋模型 1.CountVectorizer(ngram_range) 構建Ngram詞袋模型 sklearn——CountVectorizer詳解【sklearn文本特征提取】詞袋模型/稀疏表示/停用詞/TF-IDF模型詞袋和詞向量模型從詞袋模型到詞向量詞袋模型視覺詞袋模型(BOVW) sklearn.feature_extraction.text.CountVectorizer 學習 sklearn 下 CountVectorizer\TfidfVectorizer\TfidfTransformer 函數詳解機器學習入門-文本數據-構造詞頻詞袋模型 1.re.sub(進行字符串的替換) 2.nltk.corpus.stopwords.words(獲得停用詞表) 3.nltk.WordPunctTokenizer(對字符串進行分詞操作) 4.np.vectorize(對函數進行向量化) 5. CountVectorizer(構建詞頻的詞袋模型)

粵ICP備18138465號 © 2018-2026 CODEPRJ.COM