原文:開源中文分詞工具探析(四):THULAC

THULAC是一款相當不錯的中文分詞工具,准確率高 分詞速度蠻快的 並且在工程上做了很多優化,比如:用DAT存儲訓練特征 壓縮訓練模型 ,加入了標點符號的特征 提高分詞准確率 等。 開源中文分詞工具探析 系列: 開源中文分詞工具探析 一 :ICTCLAS NLPIR 開源中文分詞工具探析 二 :Jieba 開源中文分詞工具探析 三 :Ansj 開源中文分詞工具探析 四 :THULAC 開源中文分詞 ...

2017-02-22 15:57 0 4594 推薦指數:

查看詳情

開源中文分詞工具探析(三):Ansj

Ansj是由孫健(ansjsun)開源的一個中文分詞器,為ICTLAS的Java版本,也采用了Bigram + HMM分詞模型(可參考我之前寫的文章):在Bigram分詞的基礎上,識別未登錄詞,以提高分詞准確度。雖然基本分詞原理與ICTLAS的一樣,但是Ansj做了一些工程上的優化,比如:用DAT ...

Thu Jan 12 03:21:00 CST 2017 3 11409
中文分詞工具探析(二):Jieba

開源中文分詞工具探析】系列: 開源中文分詞工具探析(一):ICTCLAS (NLPIR) 開源中文分詞工具探析(二):Jieba 開源中文分詞工具探析(三):Ansj 開源中文分詞工具探析(四):THULAC 開源中文分詞工具探析(五):FNLP 開源中文分詞工具 ...

Fri Dec 30 02:08:00 CST 2016 0 9070
中文分詞工具thulac4j發布

1. 介紹 thulac4j是THULAC的Java 8工程化實現,具有分詞速度快、准、強的特點;支持 自定義詞典 繁體轉簡體 停用詞過濾 若想在項目中使用thulac4j,可添加依賴: thulac4j支持中文分詞與詞性標注,使用示例如下: 模型數據較大 ...

Fri Mar 10 01:04:00 CST 2017 10 4367
中文分詞工具探析(一):ICTCLAS (NLPIR)

開源中文分詞工具探析】系列: 開源中文分詞工具探析(一):ICTCLAS (NLPIR) 開源中文分詞工具探析(二):Jieba 開源中文分詞工具探析(三):Ansj 開源中文分詞工具探析(四):THULAC 開源中文分詞工具探析(五):FNLP 開源中文分詞工具 ...

Tue Dec 27 19:05:00 CST 2016 2 10305
 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM