原文:开源中文分词工具探析(四):THULAC

THULAC是一款相当不错的中文分词工具,准确率高 分词速度蛮快的 并且在工程上做了很多优化,比如:用DAT存储训练特征 压缩训练模型 ,加入了标点符号的特征 提高分词准确率 等。 开源中文分词工具探析 系列: 开源中文分词工具探析 一 :ICTCLAS NLPIR 开源中文分词工具探析 二 :Jieba 开源中文分词工具探析 三 :Ansj 开源中文分词工具探析 四 :THULAC 开源中文分词 ...

2017-02-22 15:57 0 4594 推荐指数:

查看详情

开源中文分词工具探析(三):Ansj

Ansj是由孙健(ansjsun)开源的一个中文分词器,为ICTLAS的Java版本,也采用了Bigram + HMM分词模型(可参考我之前写的文章):在Bigram分词的基础上,识别未登录词,以提高分词准确度。虽然基本分词原理与ICTLAS的一样,但是Ansj做了一些工程上的优化,比如:用DAT ...

Thu Jan 12 03:21:00 CST 2017 3 11409
中文分词工具探析(二):Jieba

开源中文分词工具探析】系列: 开源中文分词工具探析(一):ICTCLAS (NLPIR) 开源中文分词工具探析(二):Jieba 开源中文分词工具探析(三):Ansj 开源中文分词工具探析(四):THULAC 开源中文分词工具探析(五):FNLP 开源中文分词工具 ...

Fri Dec 30 02:08:00 CST 2016 0 9070
中文分词工具thulac4j发布

1. 介绍 thulac4j是THULAC的Java 8工程化实现,具有分词速度快、准、强的特点;支持 自定义词典 繁体转简体 停用词过滤 若想在项目中使用thulac4j,可添加依赖: thulac4j支持中文分词与词性标注,使用示例如下: 模型数据较大 ...

Fri Mar 10 01:04:00 CST 2017 10 4367
中文分词工具探析(一):ICTCLAS (NLPIR)

开源中文分词工具探析】系列: 开源中文分词工具探析(一):ICTCLAS (NLPIR) 开源中文分词工具探析(二):Jieba 开源中文分词工具探析(三):Ansj 开源中文分词工具探析(四):THULAC 开源中文分词工具探析(五):FNLP 开源中文分词工具 ...

Tue Dec 27 19:05:00 CST 2016 2 10305
 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM