NLP&Python筆記——nltk模塊基礎操作


nltk是一款常用的基於python的NLP工具包,本文介紹了nlkt的安裝導入以及一些基礎的函數操作。

1. 安裝

(1)安裝nltk庫:  pip install nlkt

(2)下載nltk庫中的book文件:

import nltk
nltk.download()

運行--> 彈出下載界面 --> 選擇book--> 設置好路徑--> Download

(3)下載好后,加載nltk的book模塊中所有條目:

from nltk.book import *

(4)加載后,就可以使用庫中包含的文檔了。如,text1/tex2/tex3.....

2. 幾個基礎函數

(1)搜索文本:text.concordance(word)

例如,在text1中搜索詞”is”在文本中出現的次數以及上下文的詞:text1.concordance("is")

(2)搜索上下文相似的詞:text.similar(word)

例如,在text1中搜索哪些相似的詞出現在詞”is”的上下文中:text1.similar("is")

(3)搜索幾個詞匯上下文的公共詞匯:text.common_contexts([word1,word2…])

例如,在text1中搜索哪些詞是”is”和“that”上下文中的公共詞匯:text1.common_contexts(["is","that"])

(4)離散圖表示詞出現的位置序列:text.dispersion_plot([word1, word2,])

例如,用離散圖表示詞"am","is","are","the","a"在text1中出現的位置,即從開頭算起的第多少個詞:text1.dispersion_plot(["am","is","are","the","a"])

(5)統計文本標示符(單詞和標點符號)的個數:len(text)

(6)獲取文本的詞匯表(含標點符號):set(text)

(7)獲取詞匯表並排序:sorted(set(text))

(8)統計詞匯表的大小:len(set(text))


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM