NLTK的安裝與簡單測試


1.NLTK簡介

Natural Language Toolkit,自然語言處理工具包,在NLP領域中,最常使用的一個Python庫。NLTK是一個開源的項目,包含:Python模塊,數據集和教程,用於NLP的研究和開發。NLTK由Steven Bird和Edward  Loper在賓夕法尼亞大學計算機和信息科學系開發。NLTK包括圖形演示和示例數據。其提供的教程解釋了工具包支持的語言處理任務背后的基本概念。

 

2. NLTK安裝

NIKE的安裝比較簡單,可以通過系統命令框輸入:pip install nltk 安裝;也可以在pycharm中點擊File->setting->project->+安裝,如下圖

 

3.NIKE的調試

NIKE安裝好后還需要安裝相應的數據包,但是通過上面的安裝數據包是沒有安裝成功的,因此需要另外通過操作安裝。安裝前,我們先測試一下NLTK功能,輸入下面代碼,對這段話進行分詞。

import nltk
text = nltk.word_tokenize("PierreVinken , 59 years old , will join as a nonexecutive director on Nov. 29 .")
print(text)

 出現如下錯誤:

...
    raise LookupError(resource_not_found)
LookupError: 
**********************************************************************
  Resource punkt not found.
  Please use the NLTK Downloader to obtain the resource:

  >>> import nltk
  >>> nltk.download('punkt')
  
  For more information see: https://www.nltk.org/data.html

  Attempted to load tokenizers/punkt/english.pickle

  Searched in:
    - 'C:\\Users\\Administrator/nltk_data'
    - 'C:\\Users\\Administrator\\Desktop\\meatwice\\venv\\nltk_data'
    - 'C:\\Users\\Administrator\\Desktop\\meatwice\\venv\\share\\nltk_data'
    - 'C:\\Users\\Administrator\\Desktop\\meatwice\\venv\\lib\\nltk_data'
    - 'C:\\Users\\Administrator\\AppData\\Roaming\\nltk_data'
    - 'C:\\nltk_data'
    - 'D:\\nltk_data'
    - 'E:\\nltk_data'
    - ''

原因:NLTK需要的數據包punkt未安裝。

解決方法:在命令框中進入python交互模式,或者在pycharm建立.py文件,輸入以下代碼:

import nltk
nltk.download()  

系統將會自動跳出NLTK數據包的下載界面,然后再根據錯誤提示選擇punkt數據包安裝,然后等待安裝。


  >>> import nltk
  >>> nltk.download('punkt')
 

 

 
        

 安裝成功后,開始調試,輸入下面代碼

import nltk
text=nltk.word_tokenize("brad pitt, 54 years old , will join as a nonexecutive actor on Nov. 29 .")
print(text)

 

運行結果:

 

 總結:通過測試,實現了對“brad pitt, 54 years old , will join as a nonexecutive actor on Nov. 29 .”的分詞,成功的實現對NLTK的簡單使用。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM