02 NLTK 分句、分詞、詞干提取、詞型還原

本文轉載自查看原文 2019-01-19 19:04 2307 文本挖掘

NLTK 分句、分詞、詞干提取、詞型還原

print("==========案例1：分句、分詞===============")
import nltk.tokenize as tk
doc ="Are you curious about tokenization? ""Let's see how it works! "\
"We need to analyze a couple of sentences " "with punctuations to see it in action."

print(doc)

# 按句拆分:tk.sent_tokenize(doc)
# 問：tk.sent_tokenize()為何能識別出到哪里是一句？
# 答：1、看首字母是大寫 ；2、結尾有標點符號
tokens = tk.sent_tokenize(doc)
for i,token in enumerate(tokens):
    print("%2d" % (i+1),token)

print("-----------------------------")

# 按詞拆分:tk.word_tokenize(doc)
tokens = tk.word_tokenize(doc)
for i,token in enumerate(tokens):
    print("%2d" % (i+1),token)


# 按詞和標點拆分:tk.WordPunctTokenizer().tokenize(doc)
tokenizer=tk.WordPunctTokenizer()
tokens = tokenizer.tokenize(doc)
for i,token in enumerate(tokens):
    print("%2d" % (i+1),token)
    
print("=============案例2：詞干提取、詞型還原===================")    

# 導入下面三種詞干提取器進行對比
import nltk.stem.porter as pt
import nltk.stem.lancaster as lc
import nltk.stem.snowball as sb

# 導入nltk.stem用來詞型還原
import nltk.stem as ns


words = ['table', 'probably', 'wolves', 'playing',
         'is', 'dog', 'the', 'beaches', 'grounded',
         'dreamt', 'envision']
print(words)

print("----------詞干提取-------------")
# 在名詞和動詞中，除了與數和時態有關的成分以外的核心成分。
# 詞干並不一定是合法的單詞

pt_stemmer = pt.PorterStemmer()  # 波特詞干提取器
lc_stemmer = lc.LancasterStemmer()   # 蘭卡斯詞干提取器
sb_stemmer = sb.SnowballStemmer("english")# 思諾博詞干提取器

for word in words:
    pt_stem = pt_stemmer.stem(word)
    lc_stem = lc_stemmer.stem(word)
    sb_stem = sb_stemmer.stem(word)
    print("%8s %8s %8s %8s" % (word,pt_stem,lc_stem,sb_stem))


print("----------詞型還原器---------------")
# 詞型還原：復數名詞->單數名詞 ；分詞->動詞原型
# 單詞原型一定是合法的單詞

lemmatizer = ns.WordNetLemmatizer()
for word in words:
    # 將名詞還原為單數形式
    n_lemma = lemmatizer.lemmatize(word, pos='n')
    # 將動詞還原為原型形式
    v_lemma = lemmatizer.lemmatize(word, pos='v')
    print('%8s %8s %8s' % (word, n_lemma, v_lemma))

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 NLTK 詞干提取、詞形還原【465】詞干提取與詞形還原 Lemmatisation & Stemming 詞干提取詞形變換和詞干提取工具（英文） NLTK 停用詞、罕見詞 NLTK學習筆記(七):文本信息提取 python詞雲圖與中文分詞提取文檔關鍵詞結巴分詞與詞雲，簡單爬蟲——(python) 機器學習之路： python nltk 文本特征提取