自然语言处理之 nltk 英文分句、分词、统计词频的工具


自然语言处理之 nltk 英文分句、分词、统计词频的工具:

需要引入包:

from nltk.tokenize import RegexpTokenizer
from nltk.corpus import stopwords
from nltk.stem.porter import PorterStemmer
from nltk.tokenize import word_tokenize
from gensim import corpora, models
import gensim

1、nltk 英文分句:sentences = sen_tokenizer.tokenize(paragraph)

2、nltk 英文分词:word_list = nltk.word_tokenize(paragraph)

3、统计词频:freq_dist = nltk.FreqDist(words)    #nltk.FreqDist返回一个词典,key是不同的词,value是词出现的次数


免责声明!

本站转载的文章为个人学习借鉴使用,本站对版权不负任何法律责任。如果侵犯了您的隐私权益,请联系本站邮箱yoyou2525@163.com删除。



 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM