stanford nltk在python中如何安裝使用一直都很神秘,看了一些帖子感覺諱莫如深。研究了幾天,參考《nlp漢語自然語言處理原理與實踐》,發現方法如下:
1.安裝JAVA 8+環境。下載地址:
http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html
我下載的是Java SE Development Kit 8u171。
根據自己的系統百度一下如何“配置java環境變量”,注意不要清空原來的環境變量啊。
2.安裝Stanford nlp 語言程序包,地址如下:
https://stanfordnlp.github.io/CoreNLP/
先點擊“Download CoreNLP 3.9.1”下載(之后版本會有變吧)。然后,就在這個鏈接下面有個地方可以下載各種語言的jar包,下載中文的。900多M,很大。
3. 解壓以上nlp語言程序包以及中文語言包,然后根據需要在python代碼中給出文件的位置。轉載一下以下文章,把可用的功能寫的很清楚:
http://www.cnblogs.com/baiboy/p/nltk1.html
譬如中文句法分析:
from nltk.parse.stanford import StanfordDependencyParser chi_parser = StanfordDependencyParser(r"E:\tools\stanfordNLTK\jar\stanford-parser.jar",r"E:\tools\stanfordNLTK\jar\stanford-parser-3.6.0-models.jar",r"E:\tools\stanfordNLTK\jar\classifiers\chinesePCFG.ser.gz") res = list(chi_parser.parse(u'四川 已 成為 中國 西部 對外開放 中 升起 的 一 顆 明星'.split())) for row in res[0].triples(): print(row)
其中用到了
stanford-parser.jar
stanford-parser-3.6.0-models.jar
chinesePCFG.ser.gz
待續