自然语言处理之 nltk 英文分句、分词、统计词频的工具

本文转载自查看原文 2020-03-20 16:18 2011 Python

自然语言处理之 nltk 英文分句、分词、统计词频的工具：

需要引入包：

from nltk.tokenize import RegexpTokenizer
from nltk.corpus import stopwords
from nltk.stem.porter import PorterStemmer
from nltk.tokenize import word_tokenize
from gensim import corpora, models
import gensim

1、nltk 英文分句：sentences = sen_tokenizer.tokenize(paragraph)

2、nltk 英文分词：word_list = nltk.word_tokenize(paragraph)

3、统计词频：freq_dist = nltk.FreqDist(words) #nltk.FreqDist返回一个词典，key是不同的词，value是词出现的次数

免责声明！

本站转载的文章为个人学习借鉴使用，本站对版权不负任何法律责任。如果侵犯了您的隐私权益，请联系本站邮箱yoyou2525@163.com删除。

猜您在找 自然语言处理NLTK之入门 NLTK自然语言处理库自然语言处理(1)之NLTK与PYTHON NLTK与自然语言处理基础自然语言处理之jieba分词自然语言处理之jieba分词利用NLTK在Python下进行自然语言处理自然语言处理--nltk安装及wordnet使用详解 python实战，中文自然语言处理，应用jieba库来统计文本词频 nltk RegexpTokenizer类:python自然语言处理