1、hanlp簡介
HanLP是由一系列模型與算法組成的Java工具包,目標是普及自然語言處理在生產環境中的應用。HanLP具備功能完善、性能高效、架構清晰、語料時新、可自定義的特點。
Hanlp具有以下功能:
- 中文分詞
- 詞性標注
- 命名實體識別
- 依存句法分析
- 關鍵詞提取新詞發現
- 短語提取
- 自動摘要
- 文本分類
- 拼音簡繁
2、hanlp安裝
第一步:hanlp提供了python庫模塊,需要在系統命令框(ctrl+r,enter :cmd)中輸入如下代碼,即可安裝pyhanlp庫
pip install pyhanlp
第二步:hanlp庫依賴數據包,因此要成功使用還需要下載特定的數據包,需要的數據包有:data-for-1.7.7.zip(最新版),
data下載地址:https://github.com/hankcs/HanLP/releases
下載后,放入文件目錄,目錄根據你安裝python編譯器的位置而定,如我的目錄是:E:\tool\python\Lib\site-packages\pyhanlp\static,找不到你的路徑可以在命令框中重新輸入一遍安裝命令,即可。注意,下載好數據包后,不用解壓,直接放到你的目錄下。然后輸入以下代碼:
from python import*
運行,即可自動解壓,成功后,開始測試。
3、hanlp功能測試
輸入簡單的測試代碼,測試hanlp的功能:
from pyhanlp import* sentence = "我喜歡當個作家,那種寫自己愛看的書的作家,寫能讓很多讀者看來欲罷不能的書的作家,寫那種酣暢淋漓的書的作家" terms = HanLP.segment(sentence ) print(terms)
結果展示:
輸出:[我/rr, 喜歡/vi, 當/p, 個/q, 作家/nnt, ,/w, 那種/r, 寫/v, 自己/rr, 愛看/v, 的/ude1, 書/n, 的/ude1, 作家/nnt, ,/w, 寫/v, 能/v, 讓/v, 很多/m, 讀者/n, 看來/v, 欲罷不能/vl, 的/ude1, 書/n, 的/ude1, 作家/nnt, ,/w, 寫/v, 那種/r, 酣暢淋漓/al, 的/ude1, 書/n, 的/ude1, 作家/nnt]
4、hanlp參考文檔
pyhanlp的參考文檔:https://github.com/hankcs/pyhanlp
hanlp的參考文檔:https://github.com/hankcs/HanLP/blob/master/README.md
5、注意事項
pynlp和hanlp都是hanlp旗下的分詞、詞性標注工具,HanLP是一個Java工具包,python是基於python的工具包,如果是用pycharm編譯python程序,安裝pyhanlp足以。