原文:solr搜索分词优化

solr服务器配置好在搜索时经常会搜出无关内容,把不该分的词给分了,导致客户找不到自己需要的内容,那么我们就从配置词典入手解决这个问题。 首先需要知道自带的词典含义: 停止词:停止词是无功能意义的词,比如is a are 的 , 得 , 我 等,这些词会在句子中多次出现却无意义,所以在分词的时候需要把这些词过滤掉。 扩展词库:就是不想让哪些词被分开,让他们分成一个词。 同义词:假设有一个电子商务系 ...

2018-03-10 09:17 0 2271 推荐指数:

查看详情

solr7.4+IK分词器,索引分词成功,查询分词成功,但是搜索不到数据

需要分词的词是在创建索引后才配置到自定义词库的,所以创建索引时,solr自动分词的结果与自定义词库后再分词的结果不同,故查询不到。 解决:将所有自定义词配置好后,再重新创建索引,便可查出。 例如:“汗出”一词IK自动将其分为“汗”,“出”两个字,而我们需要将“汗出”视为一词,故在IK自定义词 ...

Fri Aug 10 18:07:00 CST 2018 0 1962
我的搜索优化记录(一):中文分词优化IK Analyzer

搜索绝对不仅仅是搭起框架,跑出结果就完成的工作,之后分词、排序等等的优化才是重头戏。 先交代下背景:这个搜索是我一个人负责搭建并优化的项目,主要索引对象为歌曲、歌手MV等等。 使用技术:Lucene、IK_Analyzer 既然这篇博客是关于中文分词优化,那么先看我现在 ...

Thu Sep 24 23:27:00 CST 2015 2 7427
[solr] - IKAnalyzer 分词加入

1、下载IK Analyzer中文分词器:http://ik-analyzer.googlecode.com/files/IK%20Analyzer%202012FF_hf1.zip 2、解压出zip文件,将IKAnalyzer2012FF_u1.jar复制到tomcat中的solr ...

Thu Sep 18 19:54:00 CST 2014 0 2471
关于Solr搜索标点与符号的中文分词你必须知道的(mmseg源码改造)

关于Solr搜索标点与符号的中文分词你必须知道的(mmseg源码改造) 摘要:在中文搜索中的标点、符号往往也是有语义的,比如我们要搜索“C++”或是“C#”,我们不希望搜索出来的全是“C”吧?那样对程序员来说是个噩梦。然而在中文分词工具mmseg中,它的中文分词是将标点与符号均去除 ...

Thu May 14 08:00:00 CST 2015 0 3075
solr中文分词

solr分词,就是solr配置的字段类型根据注册的分词文件分词断句的行为。 例如:你们村村通工程知道吗? 不分词的时候会是这样: 分词的话,我们把“村村通工程 ”名词化,分词结果为: 说说中文分词 中文分词器有多中 ...

Mon Feb 27 23:40:00 CST 2017 0 4352
Java solr 分词

  代码如下: ...

Thu Dec 14 22:17:00 CST 2017 0 1068
 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM