nltk RegexpTokenizer类:python自然语言处理

本文转载自查看原文 2019-01-08 09:10 1315 Python学习(hm)

前面的一些分词工具都是写好的的规则

如果我们想按照自己的规则进行分词可以使用正则分词器

1.RegexpTokenizer类

from nltk.tokenize import RegexpTokenizer

text = " I won't just survive, Oh, you will see me thrive. Can't write my story,I'm beyond the archetype."

# 实例化RegexpTokenizer 会按照正则表达式进行re.findall()
regexp_tokenizer = RegexpTokenizer(pattern="\w+")
# 实例化RegexpTokenizer 指定gaps=True会按照正则表达式进行re.split()
regexp_tokenizer1 = RegexpTokenizer("[\s,'\.]", gaps=True)
print(regexp_tokenizer.tokenize(text))
# ['I', 'won', 't', 'just', 'survive', 'Oh', 'you', 'will', 'see', 'me', 'thrive', 'Can', 't', 'write', 'my', 'story', 'I', 'm', 'beyond', 'the', 'archetype']
print(regexp_tokenizer1.tokenize(text))
# ['I', 'won', 't', 'just', 'survive', 'Oh', 'you', 'will', 'see', 'me', 'thrive', 'Can', 't', 'write', 'my', 'story', 'I', 'm', 'beyond', 'the', 'archetype']
---------------------
作者：qq_41864652
来源：CSDN
原文：https://blog.csdn.net/qq_41864652/article/details/81505768
版权声明：本文为博主原创文章，转载请附上博文链接！

免责声明！

本站转载的文章为个人学习借鉴使用，本站对版权不负任何法律责任。如果侵犯了您的隐私权益，请联系本站邮箱yoyou2525@163.com删除。

猜您在找 自然语言处理(1)之NLTK与PYTHON NLTK自然语言处理库 NLTK与自然语言处理基础利用NLTK在Python下进行自然语言处理自然语言处理NLTK之入门自然语言处理--nltk安装及wordnet使用详解 Python NLTK 自然语言处理入门与例程(转) 把python自然语言处理的nltk_data打包到360云盘，然后共享给朋友们 PYTHON自然语言处理中文翻译 NLTK 中文版.pdf python自然语言处理（一）