python —— 文本特征提取 CountVectorize


CountVectorize

來自:python學習 文本特征提取(二) CountVectorizer TfidfVectorizer 中文處理 - CSDN博客

https://blog.csdn.net/shuihupo/article/details/80930801

常用數據輸入形式為:列表,列表元素為代表文章的字符串,一個字符串代表一篇文章,字符串是已經分割好的

CountVectorizer同樣適用於中文

參數表 作用
stop_words 停用詞表;自定義停用詞表
token_pattern 過濾規則;

 

屬性表 作用
vocabulary_ 詞匯表;字典型
get_feature_names() 所有文本的詞匯;列表型
stop_words_ 返回停用詞表

CountVectorizer是通過fit_transform函數將文本中的詞語轉換為詞頻矩陣,矩陣元素a[i][j] 表示j詞在第i個文本下的詞頻。即各個詞語出現的次數,通過get_feature_names()可看到所有文本的關鍵字,通過toarray()可看到詞頻矩陣的結果。

方法表 作用
fit_transform(X) 擬合模型,並返回文本矩陣


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM