CountVectorize
來自:python學習 文本特征提取(二) CountVectorizer TfidfVectorizer 中文處理 - CSDN博客
https://blog.csdn.net/shuihupo/article/details/80930801
常用數據輸入形式為:列表,列表元素為代表文章的字符串,一個字符串代表一篇文章,字符串是已經分割好的
CountVectorizer同樣適用於中文
參數表 | 作用 |
---|---|
stop_words | 停用詞表;自定義停用詞表 |
token_pattern | 過濾規則; |
屬性表 | 作用 |
---|---|
vocabulary_ | 詞匯表;字典型 |
get_feature_names() | 所有文本的詞匯;列表型 |
stop_words_ | 返回停用詞表 |
CountVectorizer是通過fit_transform函數將文本中的詞語轉換為詞頻矩陣,矩陣元素a[i][j] 表示j詞在第i個文本下的詞頻。即各個詞語出現的次數,通過get_feature_names()可看到所有文本的關鍵字,通過toarray()可看到詞頻矩陣的結果。
方法表 | 作用 |
---|---|
fit_transform(X) | 擬合模型,並返回文本矩陣 |