一、簡介
1.Natural Language ToolKit(NLTK) 自然語言處理包:是一個用於自然語言處理和文本分析的綜合性python庫。用於NLP的研究和開發。
2.NLTK 文檔和API 可在http://text-processing.com. 查看。
3.Tokenization(標記化)標記化是將字符串拆分成一個片段或標記列表的過程。一個符號是一個整體的一部分,所以一個單詞是一個句子中的一個標記,而一個句子是一個段落中的一個標記。
4.WordNet:一種基於認知語言學的英語詞典。它不是光把單詞以字母順序排列,而且按照單詞的意義組成一個“單詞的網絡”。是為自然語言處理系統編程訪問而設計的詞典。
它有許多不同的用例:
比如 查找單詞的定義、尋找同義詞(synonyms)和反義詞(antonyms)、探討詞的關系與相似性、具有多種用途和定義的詞的詞義消歧。
NLTK包含一個Wordnet語料庫閱讀器(WordNet corpus reader),我們將使用它來訪問Wordnet。語料庫只是一個文本,而語料庫閱讀器的目的是使訪問一個語料庫比直接文件訪問容易得多。
二、做好准備
安裝NLTK前需要安裝python環境,我電腦win10裝的是python3.6 64位。編譯器安的是pyCharm
這里我以pyCharm安裝NLTK為例,如果不用編譯器下載,則訪問下面的網址下載安裝
官網鏈接:http://www.nltk.org/
安裝步驟:http://www.nltk.org/install.html
下載地址:https://pypi.python.org/pypi/nltk
第一步先裝python。第二步裝NumPy。
第三步裝NLTK 時 會報如下錯誤(現在還沒搞明白) 果斷棄坑,轉用pyCharm安裝
1.打開編譯器-》File-》settings 出現如下圖界面
點擊紅圈綠色的加號,顯示下圖頁面,搜索numpy-》點右下角安裝
numpy安裝完后,繼續搜索nltk安裝,都安裝好后如下圖
繼續,新建個test.py 輸入如下代碼
1 import nltk 2 nltk.download()
用來下載 nltk data
點擊運行test.py 會彈出如下頁面
Server Index 將默認地址改為http://www.nltk.org/nltk_data/
Download Directory可以選擇默認c盤,也可以改成 下面任意一個目錄(因為查找是按下面文件順序查找的)
- 'C:\\Users\\dell/nltk_data'
- 'C:\\nltk_data'
- 'D:\\nltk_data'
- 'E:\\nltk_data'
- 'D:\\python36\\venv\\nltk_data'
- 'D:\\python36\\venv\\lib\\nltk_data'
- 'C:\\Users\\dell\\AppData\\Roaming\\nltk_data'
選all 是全部都下載,相當慢應該要兩天時間,也可以每次只下載要用的部分。
點擊Download(因為我之前下過,所以狀態Status為out of date,如果是第一次安狀態都為 not installed)
如果嫌麻煩 也可以從百度雲盤分享我下好的nltk data 鏈接:https://pan.baidu.com/s/1d64mVhAbMBh3U3bw34XlfA 密碼:64ey
百度雲盤下載完后只需將解壓移動到
- 'C:\\Users\\dell/nltk_data'
- 'C:\\nltk_data'
- 'D:\\nltk_data'
- 'E:\\nltk_data'
- 'D:\\python36\\venv\\nltk_data'
- 'D:\\python36\\venv\\lib\\nltk_data'
- 'C:\\Users\\dell\\AppData\\Roaming\\nltk_data'
任意目錄下就可以了。
上述步驟完成后可以敲入如下代碼
from nltk.book import *
運行結果如下圖說明成功
下載我百度雲盤里的,運行時可能會報如下錯誤
找不到punkt資源
只需再單獨下載punkt就可以了,代碼如下
1 import nltk 2 nltk.download('punkt')