編程語言:java
三種工具的簡要介紹:
FudanNLP
google project上的介紹是:
FudanNLP主要是為中文自然語言處理而開發的工具包,也包含為實現這些任務的機器學習算法和數據集。FudanNLP及其包含數據集使用LGPL3.0許可證。
If you're new to FudanNLP, check out the Quick Start (使用說明) page, FudanNLP Book or Java-docs.
功能有:
- 信息檢索: 文本分類 新聞聚類
- 中文處理: 中文分詞 詞性標注 實體名識別 關鍵詞抽取 依存句法分析 時間短語識別
- 結構化學習: 在線學習 層次分類 聚類 精確推理
下載地址:http://code.google.com/p/fudannlp/downloads/list
可以直接用eclipse打開,如果有錯誤如:找不到主類。最大可能性是主類的包或者類路徑沒有設正確
看看類路徑和classpath變量。project-properties-java build path-libraries-add library加入相應的jre即可運行。
跑example里面的java文件試試。
中科院計算所ICTCLAS2013
[引用:http://www.blogjava.net/zhenandaci/archive/2008/09/21/230269.html]
ICTCLAS是中科院計算所出品的中文分詞程序包,在國內一直有着良好的口碑和很高的使用率。之前一直只有 C++的版本提供,而現在也有C#,Delphi和Java版本.
可以不用以前的C++版提供的JNI調用,直接使用純Java版本的ICTCLAS。
下載地址:http://ictclas.org/Down_OpenSrc.asp
解壓縮,把Data文件夾整個拷貝到Eclipse項目的文件夾下,而bin目錄下的org文件夾整個拷貝到你Eclipse項目的bin目錄下,把src目錄下的org文件夾整個拷貝到Eclipse項目的src目錄下(最簡單快捷的使用方式,或者你自己打成jar包,這樣無論放到哪里,都可以在build path里面導入這個jar包)。
這時候,可能會有錯誤:org.apache.commons.lang.builder.ReflectionToStringBuilder找不到類。這時在網上找相應的類包org.apache.commons.lang下載導入,add即可。
運行,若報錯:找不到主類。同上面FudanNLP所說,add library加入相應jre。
新建一個test文件夾,右鍵,build path-use as source folder,往里面加入一個測試文件test1.java:
import org.ictclas4j.bean.SegResult; import org.ictclas4j.segment.SegTag; public class test1 { public static void main(String[] args){ System.out.println("This is one main"); SegTag st = new SegTag(1); SegResult sr = st.split("NLPIR漢語分詞系統(又名ICTCLAS2013),主要功能包括中文分詞;
詞性標注;命名實體識別;用戶詞典功能;支持GBK編碼、UTF8編碼、BIG5編碼。新增微博分詞、新詞發現與關鍵
詞提取。"); System.out.println(sr.getFinalResult()); } }
即可運行。