自然語言處理--nltk安裝及wordnet使用詳解


環境:python2.7.10

首先安裝pip

在https://pip.pypa.io/en/stable/installing/ 下載get-pip.py

然后執行 python get-pip.py 將自動安裝pip

 

nltk是python的一個擴展包,提供自然語言處理工具集

安裝nltk

sudo pip install -U nltk

import nltk

然后下載語料庫

nltk.download()

彈出窗口如下,按需下載,我選擇的是book

下載完成查看目錄:

其中corpora為語料庫,也可以下載自己需要的語料庫:http://www.nltk.org/nltk_data/

corpora中有好多文章和字典,如古騰堡,路透社等文章,wordnet是面向語義的詞典,names里包含了好多名字,stopwords包含了可忽略的語法上的高頻詞匯,words包含平時常用的單詞可用來做拼寫檢查,

還有city_database,webtext,unicode_samples等語料。

使用時需要import,如:

from nltk.corpus import gutenberg

from nltk.corpus import stopwords

 

wordnet語料庫:

wordnet是普林斯頓大學創建的語義詞典,特點是其中包含了大量的單詞間的聯系,可以看作是一個巨大的詞匯網絡。

詞與詞之間的關系可以為同義,反義,上下位(水果-蘋果),整體部分(汽車-輪胎)。建立關系是大腦學習的首要過程,知識的脈絡必定可達,孤立點會被遺忘。

引入wordnet

from nltk.corpus import wordnet as wn

wordnet API:http://www.nltk.org/howto/wordnet.html

synsets()用來查詢一個單詞,返回結果是Synset數組,一個Synset由 單詞-詞性-序號 組成:

 

 

 

 






免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM