【HanLP】HanLP中文自然語言處理工具實例演練


HanLP中文自然語言處理工具實例演練

作者:白寧超

2016年11月25日13:45:13

摘要:HanLP是hankcs個人完成一系列模型與算法組成的Java工具包,目標是普及自然語言處理在生產環境中的應用。HanLP具備功能完善、性能高效、架構清晰、語料時新、可自定義的特點。 在提供豐富功能的同時,HanLP內部模塊堅持低耦合、模型堅持惰性加載、服務堅持靜態提供、詞典堅持明文發布,使用非常方便,同時自帶一些語料處理工具,幫助用戶訓練自己的語料。筆者堅定支持開源的項目,本文初衷是使用自然語言處理工具進行畢設的基本操作。后來發現HanLP真心的貼心,代碼Java編寫,文檔結構嚴謹、目錄清晰都是接地氣的注釋和解釋。文檔大家參照官方即可,本文篇一介紹HanLP相關的資料鏈接,篇二介紹HanLP的操作實戰部分,后續文章進行源碼分析。(本文原創編著,轉載注明出處:HanLP中文自然語言處理工具實例演練

目錄

【HanLP】HanLP資料鏈接匯總(1)

【HanLP】HanLP中文自然語言處理工具實例演練(2)

【HanLP】HanLP自然語言處理源碼分析研究(3)

1 MyEclipse安裝HanLP


【注】本文主注重方法調用和操作,后續文章注重原理和源碼分析

具體操作擴展步驟參看官方文檔,本文是作者操作記錄,便於實際應用。HanLP將數據與程序分離,給予用戶自定義的自由。 HanLP由三部分組成:HanLP = .jar + data + .properties ,請前往 項目主頁 下載這三個部分。

1 其中jar、data.zip、hanlp.properties是安裝配置文件,橘色框為源碼。

2 打開MyEclipse新建項目HanLP,將jar放入lib包並構建依賴,data.zip、hanlp.properties均放入HanLP主目錄下。

3 hanlp.properties進行修改,只需要改root=yourpath/HanLP即可

4 將修改后的hanlp.properties放入工作空間中 HanLP/bin下一份即可完成

5 測試分詞:

如上即在MyEclipse下完成HanLP安裝,需要什么功能,只需要HanLP點就可以提示基本功能。這里說明一點,data下面model主要用於句法分析的,默認情況下原作者將其分割開了,需要的自行下載即可。

2 分詞操作


 

 

3 詞典


 

 

4 命名實體識別


 

 

5 篇章理解


 

 

6 繁簡拼音轉換


 

 

7 依存句法分析


 

 

8 智能推薦


 

 

9 Lucene插件


 

 

10 其他文檔功能


 

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM