自然語言處理之 nltk 英文分句、分詞、統計詞頻的工具

本文轉載自查看原文 2020-03-20 16:18 2011 Python

自然語言處理之 nltk 英文分句、分詞、統計詞頻的工具：

需要引入包：

from nltk.tokenize import RegexpTokenizer
from nltk.corpus import stopwords
from nltk.stem.porter import PorterStemmer
from nltk.tokenize import word_tokenize
from gensim import corpora, models
import gensim

1、nltk 英文分句：sentences = sen_tokenizer.tokenize(paragraph)

2、nltk 英文分詞：word_list = nltk.word_tokenize(paragraph)

3、統計詞頻：freq_dist = nltk.FreqDist(words) #nltk.FreqDist返回一個詞典，key是不同的詞，value是詞出現的次數

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 自然語言處理之jieba分詞自然語言處理--nltk安裝及wordnet使用詳解自然語言處理之中文分詞算法 [自然語言處理] 中文分詞技術 hanlp中文自然語言處理的幾種分詞方法 Python自然語言處理工具小結 PYTHON自然語言處理中文翻譯 NLTK 中文版.pdf 自然語言處理2.1——NLTK文本語料庫 NLTK學習筆記(四):自然語言處理的一些算法研究結巴分詞和自然語言處理HanLP處理手記