將詞匯按它們的詞性(parts-of-speech,POS)分類以及相應的標注它們的過程被稱為詞
性標注(part-of-speech tagging, POS tagging)或干脆簡稱標注。詞性也稱為詞類或詞匯范
疇。用於特定任務的標記的集合被稱為一個標記集。
使用詞性標注器進行英文的詞性標注。
1. 打開cmd,輸入python,進入python編譯環境。
import nltk text =nltk.word_tokenize("And now for something completely different") nltk.pos_tag(text)
一開始報錯:
那么多,看都不想看。不想看也不行,慢慢看唄,答案肯定就在這里面。
看了下,還真找到了,
按照步驟來,使用下載器獲取資源。
然后再運行開始的代碼,結果如下:
[('And', 'CC'), ('now', 'RB'), ('for', 'IN'), ('something', 'NN'), ('completely', 'RB'), ('different', 'JJ'), ('.', '.')]
在這里我們看到and 是CC,並列連詞;now 和completely 是RB,副詞;for 是IN,介
詞;something 是NN,名詞;different 是JJ,形容詞。
2. 另一個例子,這次包括一些同形同音異義詞: