自然語言處理--nltk安裝及wordnet使用詳解

本文轉載自查看原文 2016-08-30 23:12 2061 圖形圖像

環境：python2.7.10

首先安裝pip

在https://pip.pypa.io/en/stable/installing/ 下載get-pip.py

然后執行 python get-pip.py 將自動安裝pip

nltk是python的一個擴展包，提供自然語言處理工具集

安裝nltk

sudo pip install -U nltk

import nltk

然后下載語料庫

nltk.download()

彈出窗口如下，按需下載，我選擇的是book

、

下載完成查看目錄：

其中corpora為語料庫，也可以下載自己需要的語料庫：http://www.nltk.org/nltk_data/

corpora中有好多文章和字典，如古騰堡，路透社等文章，wordnet是面向語義的詞典，names里包含了好多名字，stopwords包含了可忽略的語法上的高頻詞匯，words包含平時常用的單詞可用來做拼寫檢查，

還有city_database，webtext，unicode_samples等語料。

使用時需要import，如：

from nltk.corpus import gutenberg

from nltk.corpus import stopwords

wordnet語料庫：

wordnet是普林斯頓大學創建的語義詞典，特點是其中包含了大量的單詞間的聯系，可以看作是一個巨大的詞匯網絡。

詞與詞之間的關系可以為同義，反義，上下位（水果－蘋果），整體部分（汽車－輪胎）。建立關系是大腦學習的首要過程，知識的脈絡必定可達，孤立點會被遺忘。

引入wordnet

from nltk.corpus import wordnet as wn

wordnet API：http://www.nltk.org/howto/wordnet.html

synsets()用來查詢一個單詞，返回結果是Synset數組，一個Synset由單詞－詞性－序號組成：

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 python 自然語言處理（五）____WordNet 自然語言處理NLTK之入門 NLTK自然語言處理庫自然語言處理(1)之NLTK與PYTHON NLTK與自然語言處理基礎自然語言22_Wordnet with NLTK 利用NLTK在Python下進行自然語言處理 nltk RegexpTokenizer類:python自然語言處理自然語言20.1 WordNet介紹和使用自然語言處理之 nltk 英文分句、分詞、統計詞頻的工具