原文:【lucene系列学习四】使用IKAnalyzer分词器实现敏感词和停用词过滤

Lucene自带的中文分词器SmartChineseAnalyzer不太好扩展,于是我用了IKAnalyzer来进行敏感词和停用词的过滤。 首先,下载IKAnalyzer,我下载了 然后,由于IKAnalyzer已经很久不更新了,不兼容现在的Lucene 版本,所以我参考网上的资料,重写了IKTokenizer和IKAnalyzer两个类。 MyIKTokenizer MyIKAnalyzer 参 ...

2017-03-21 17:46 5 4797 推荐指数:

查看详情

IKAnalyzer使用停用词词典进行分词

@Test // 測试分词的效果,以及停用词典是否起作用 public void test() throws IOException { String text = "老爹我们都爱您。"; Configuration configuration ...

Sun Feb 28 18:56:00 CST 2016 0 2676
Java实现敏感过滤 - IKAnalyzer中文分词工具

IKAnalyzer 是一个开源的,基于java语言开发的轻量级的中文分词工具包。 官网: https://code.google.com/archive/p/ik-analyzer/ 本用例借助 IKAnalyzer 进行分词,通过遍历分词集合进行敏感过滤使用前需对敏感词库进行 ...

Mon Sep 04 23:22:00 CST 2017 0 10063
Lucene的中文分词器IKAnalyzer

  分词器对英文的支持是非常好的。   一般分词经过的流程:   1)切分关键   2)去除停用词   3)把英文单词转为小写   但是老外写的分词器对中文分词一般都是单字分词分词的效果不好。   国人林良益写的IK Analyzer应该是最好的Lucene中文分词器 ...

Sat Jun 23 21:55:00 CST 2012 14 13850
IKAnalyzer进行中文分词和去停用词

最近学习主题模型pLSA、LDA,就想拿来试试中文。首先就是找文本进行切、去停用词等预处理,这里我找了开源工具IKAnalyzer2012,下载地址:(:(注意:这里尽量下载最新版本,我这里用的IKAnalyzer2012.zip 这本版本后来测试时发现bug,这里建议 ...

Wed Jan 14 07:30:00 CST 2015 0 16484
Lucene系列三:Lucene分词器详解、实现自己的一个分词器

一、Lucene分词器详解 1. Lucene-分词器API (1)org.apache.lucene.analysi.Analyzer 分析分词器组件的核心API,它的职责:构建真正对文本进行分词处理的TokenStream(分词处理)。通过调用它的如下两个方法,得到输入文本的分词 ...

Sat May 05 09:17:00 CST 2018 4 7962
 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM