python 英文分詞

本文轉載自查看原文 2017-03-17 20:39 1890 python

做kaggle的quora比賽需要用Python處理英文

首先分詞

import nltk

sentence = "At eight o'clock on Thursday morning Arthur didn't feel very good."
tokens = nltk.word_tokenize(sentence)
print tokens

['At', 'eight', "o'clock", 'on', 'Thursday', 'morning', 'Arthur', 'did', "n't", 'feel', 'very', 'good', '.']

報錯

LookupError: 
**********************************************************************
  Resource u'tokenizers/punkt/english.pickle' not found.  Please
  use the NLTK Downloader to obtain the resource:  

>>>  nltk.download()

按照提示下載pickle模塊后，不再報錯

然后標注詞性

word_tag=nltk.pos_tag(tokens)
print word_tag
word_tag=nltk.pos_tag(tokens)
print word_tag
[('At', 'IN'), ('eight', 'CD'), ("o'clock", 'NN'), ('on', 'IN'), ('Thursday', 'NNP'), ('morning', 'NN'), ('Arthur', 'NNP'), ('did', 'VBD'), ("n't", 'RB'), ('feel', 'VB'), ('very', 'RB'), ('good', 'JJ'), ('.', '.')]

tag的含義解釋:http://blog.csdn.net/john159151/article/details/50255101

同義：

wordnet

參考：http://www.cnblogs.com/rcfeng/p/3918544.html

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 英文分詞和中文分詞英文分詞算法(Porter stemmer) 分詞————jieba分詞（Python） Python 結巴分詞（1）分詞 python 中文分詞：結巴分詞 Solr的中英文分詞實現 python中文分詞：結巴分詞英文分詞對比nltk vs spacy python中文分詞，使用結巴分詞對python進行分詞 Python jieba 分詞