nltk RegexpTokenizer類:python自然語言處理

本文轉載自查看原文 2019-01-08 09:10 1315 Python學習(hm)

前面的一些分詞工具都是寫好的的規則

如果我們想按照自己的規則進行分詞可以使用正則分詞器

1.RegexpTokenizer類

from nltk.tokenize import RegexpTokenizer

text = " I won't just survive, Oh, you will see me thrive. Can't write my story,I'm beyond the archetype."

# 實例化RegexpTokenizer 會按照正則表達式進行re.findall()
regexp_tokenizer = RegexpTokenizer(pattern="\w+")
# 實例化RegexpTokenizer 指定gaps=True會按照正則表達式進行re.split()
regexp_tokenizer1 = RegexpTokenizer("[\s,'\.]", gaps=True)
print(regexp_tokenizer.tokenize(text))
# ['I', 'won', 't', 'just', 'survive', 'Oh', 'you', 'will', 'see', 'me', 'thrive', 'Can', 't', 'write', 'my', 'story', 'I', 'm', 'beyond', 'the', 'archetype']
print(regexp_tokenizer1.tokenize(text))
# ['I', 'won', 't', 'just', 'survive', 'Oh', 'you', 'will', 'see', 'me', 'thrive', 'Can', 't', 'write', 'my', 'story', 'I', 'm', 'beyond', 'the', 'archetype']
---------------------
作者：qq_41864652
來源：CSDN
原文：https://blog.csdn.net/qq_41864652/article/details/81505768
版權聲明：本文為博主原創文章，轉載請附上博文鏈接！

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 自然語言處理(1)之NLTK與PYTHON NLTK自然語言處理庫 NLTK與自然語言處理基礎利用NLTK在Python下進行自然語言處理自然語言處理NLTK之入門自然語言處理--nltk安裝及wordnet使用詳解 Python NLTK 自然語言處理入門與例程(轉) 把python自然語言處理的nltk_data打包到360雲盤，然后共享給朋友們 PYTHON自然語言處理中文翻譯 NLTK 中文版.pdf python自然語言處理（一）