HanLP中文自然語言處理工具實例演練
作者:白寧超
2016年11月25日13:45:13
摘要:HanLP是hankcs個人完成一系列模型與算法組成的Java工具包,目標是普及自然語言處理在生產環境中的應用。HanLP具備功能完善、性能高效、架構清晰、語料時新、可自定義的特點。 在提供豐富功能的同時,HanLP內部模塊堅持低耦合、模型堅持惰性加載、服務堅持靜態提供、詞典堅持明文發布,使用非常方便,同時自帶一些語料處理工具,幫助用戶訓練自己的語料。筆者堅定支持開源的項目,本文初衷是使用自然語言處理工具進行畢設的基本操作。后來發現HanLP真心的貼心,代碼Java編寫,文檔結構嚴謹、目錄清晰都是接地氣的注釋和解釋。文檔大家參照官方即可,本文篇一介紹HanLP相關的資料鏈接,篇二介紹HanLP的操作實戰部分,后續文章進行源碼分析。(本文原創編著,轉載注明出處:HanLP中文自然語言處理工具實例演練。)
目錄
1 MyEclipse安裝HanLP
【注】:本文主注重方法調用和操作,后續文章注重原理和源碼分析。
具體操作擴展步驟參看官方文檔,本文是作者操作記錄,便於實際應用。HanLP將數據與程序分離,給予用戶自定義的自由。 HanLP由三部分組成:HanLP = .jar + data + .properties ,請前往 項目主頁 下載這三個部分。

1 其中jar、data.zip、hanlp.properties是安裝配置文件,橘色框為源碼。
2 打開MyEclipse新建項目HanLP,將jar放入lib包並構建依賴,data.zip、hanlp.properties均放入HanLP主目錄下。
3 hanlp.properties進行修改,只需要改root=yourpath/HanLP即可
4 將修改后的hanlp.properties放入工作空間中 HanLP/bin下一份即可完成
5 測試分詞:

如上即在MyEclipse下完成HanLP安裝,需要什么功能,只需要HanLP點就可以提示基本功能。這里說明一點,data下面model主要用於句法分析的,默認情況下原作者將其分割開了,需要的自行下載即可。
2 分詞操作
3 詞典
4 命名實體識別
5 篇章理解
6 繁簡拼音轉換
7 依存句法分析
8 智能推薦
9 Lucene插件
10 其他文檔功能
