1.NLTK簡介
Natural Language Toolkit,自然語言處理工具包,在NLP領域中,最常使用的一個Python庫。NLTK是一個開源的項目,包含:Python模塊,數據集和教程,用於NLP的研究和開發。NLTK由Steven Bird和Edward Loper在賓夕法尼亞大學計算機和信息科學系開發。NLTK包括圖形演示和示例數據。其提供的教程解釋了工具包支持的語言處理任務背后的基本概念。
2. NLTK安裝
NIKE的安裝比較簡單,可以通過系統命令框輸入:pip install nltk 安裝;也可以在pycharm中點擊File->setting->project->+安裝,如下圖
3.NIKE的調試
NIKE安裝好后還需要安裝相應的數據包,但是通過上面的安裝數據包是沒有安裝成功的,因此需要另外通過操作安裝。安裝前,我們先測試一下NLTK功能,輸入下面代碼,對這段話進行分詞。
import nltk text = nltk.word_tokenize("PierreVinken , 59 years old , will join as a nonexecutive director on Nov. 29 .") print(text)
出現如下錯誤:
... raise LookupError(resource_not_found) LookupError: ********************************************************************** Resource punkt not found. Please use the NLTK Downloader to obtain the resource: >>> import nltk >>> nltk.download('punkt') For more information see: https://www.nltk.org/data.html Attempted to load tokenizers/punkt/english.pickle Searched in: - 'C:\\Users\\Administrator/nltk_data' - 'C:\\Users\\Administrator\\Desktop\\meatwice\\venv\\nltk_data' - 'C:\\Users\\Administrator\\Desktop\\meatwice\\venv\\share\\nltk_data' - 'C:\\Users\\Administrator\\Desktop\\meatwice\\venv\\lib\\nltk_data' - 'C:\\Users\\Administrator\\AppData\\Roaming\\nltk_data' - 'C:\\nltk_data' - 'D:\\nltk_data' - 'E:\\nltk_data' - ''
原因:NLTK需要的數據包punkt未安裝。
解決方法:在命令框中進入python交互模式,或者在pycharm建立.py文件,輸入以下代碼:
import nltk nltk.download()
系統將會自動跳出NLTK數據包的下載界面,然后再根據錯誤提示選擇punkt數據包安裝,然后等待安裝。
>>> import nltk
>>> nltk.download('punkt')

安裝成功后,開始調試,輸入下面代碼
import nltk text=nltk.word_tokenize("brad pitt, 54 years old , will join as a nonexecutive actor on Nov. 29 .") print(text)
運行結果:
總結:通過測試,實現了對“brad pitt, 54 years old , will join as a nonexecutive actor on Nov. 29 .”的分詞,成功的實現對NLTK的簡單使用。