NLP的兩種工具的java版使用:復旦FudanNLP,中科院計算所ICTCLAS2013


編程語言:java

三種工具的簡要介紹:

FudanNLP

google project上的介紹是:

FudanNLP主要是為中文自然語言處理而開發的工具包,也包含為實現這些任務的機器學習算法和數據集。FudanNLP及其包含數據集使用LGPL3.0許可證。

If you're new to FudanNLP, check out the Quick Start (使用說明) page, FudanNLP Book or Java-docs.

功能有:

  1. 信息檢索: 文本分類 新聞聚類
  2. 中文處理: 中文分詞 詞性標注 實體名識別 關鍵詞抽取 依存句法分析 時間短語識別
  3. 結構化學習: 在線學習 層次分類 聚類 精確推理

下載地址:http://code.google.com/p/fudannlp/downloads/list

可以直接用eclipse打開,如果有錯誤如:找不到主類。最大可能性是主類的包或者類路徑沒有設正確
看看類路徑和classpath變量。project-properties-java build path-libraries-add library加入相應的jre即可運行。

跑example里面的java文件試試。

 

中科院計算所ICTCLAS2013

[引用:http://www.blogjava.net/zhenandaci/archive/2008/09/21/230269.html]

ICTCLAS是中科院計算所出品的中文分詞程序包,在國內一直有着良好的口碑和很高的使用率。之前一直只有 C++的版本提供,而現在也有C#,Delphi和Java版本.

可以不用以前的C++版提供的JNI調用,直接使用純Java版本的ICTCLAS。

下載地址:http://ictclas.org/Down_OpenSrc.asp

解壓縮,把Data文件夾整個拷貝到Eclipse項目的文件夾下,而bin目錄下的org文件夾整個拷貝到你Eclipse項目的bin目錄下,把src目錄下的org文件夾整個拷貝到Eclipse項目的src目錄下(最簡單快捷的使用方式,或者你自己打成jar包,這樣無論放到哪里,都可以在build path里面導入這個jar包)。

這時候,可能會有錯誤:org.apache.commons.lang.builder.ReflectionToStringBuilder找不到類。這時在網上找相應的類包org.apache.commons.lang下載導入,add即可。

運行,若報錯:找不到主類。同上面FudanNLP所說,add library加入相應jre。

新建一個test文件夾,右鍵,build path-use as source folder,往里面加入一個測試文件test1.java:

import org.ictclas4j.bean.SegResult;
import org.ictclas4j.segment.SegTag;

public class test1 {

    public static void main(String[] args){
        System.out.println("This is one main");
        SegTag st = new SegTag(1);
        SegResult sr = st.split("NLPIR漢語分詞系統(又名ICTCLAS2013),主要功能包括中文分詞;
詞性標注;命名實體識別;用戶詞典功能;支持GBK編碼、UTF8編碼、BIG5編碼。新增微博分詞、新詞發現與關鍵
詞提取。"); System.out.println(sr.getFinalResult()); } }

即可運行。

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM