環境:python2.7.10
首先安裝pip
在https://pip.pypa.io/en/stable/installing/ 下載get-pip.py
然后執行 python get-pip.py 將自動安裝pip
nltk是python的一個擴展包,提供自然語言處理工具集
安裝nltk
sudo pip install -U nltk
import nltk
然后下載語料庫
nltk.download()
彈出窗口如下,按需下載,我選擇的是book
、
下載完成查看目錄:

其中corpora為語料庫,也可以下載自己需要的語料庫:http://www.nltk.org/nltk_data/
corpora中有好多文章和字典,如古騰堡,路透社等文章,wordnet是面向語義的詞典,names里包含了好多名字,stopwords包含了可忽略的語法上的高頻詞匯,words包含平時常用的單詞可用來做拼寫檢查,
還有city_database,webtext,unicode_samples等語料。
使用時需要import,如:
from nltk.corpus import gutenberg
from nltk.corpus import stopwords
wordnet語料庫:
wordnet是普林斯頓大學創建的語義詞典,特點是其中包含了大量的單詞間的聯系,可以看作是一個巨大的詞匯網絡。
詞與詞之間的關系可以為同義,反義,上下位(水果-蘋果),整體部分(汽車-輪胎)。建立關系是大腦學習的首要過程,知識的脈絡必定可達,孤立點會被遺忘。
引入wordnet
from nltk.corpus import wordnet as wn
wordnet API:http://www.nltk.org/howto/wordnet.html
synsets()用來查詢一個單詞,返回結果是Synset數組,一個Synset由 單詞-詞性-序號 組成:


