原文:solr搜索分詞優化

solr服務器配置好在搜索時經常會搜出無關內容,把不該分的詞給分了,導致客戶找不到自己需要的內容,那么我們就從配置詞典入手解決這個問題。 首先需要知道自帶的詞典含義: 停止詞:停止詞是無功能意義的詞,比如is a are 的 , 得 , 我 等,這些詞會在句子中多次出現卻無意義,所以在分詞的時候需要把這些詞過濾掉。 擴展詞庫:就是不想讓哪些詞被分開,讓他們分成一個詞。 同義詞:假設有一個電子商務系 ...

2018-03-10 09:17 0 2271 推薦指數:

查看詳情

solr7.4+IK分詞器,索引分詞成功,查詢分詞成功,但是搜索不到數據

需要分詞的詞是在創建索引后才配置到自定義詞庫的,所以創建索引時,solr自動分詞的結果與自定義詞庫后再分詞的結果不同,故查詢不到。 解決:將所有自定義詞配置好后,再重新創建索引,便可查出。 例如:“汗出”一詞IK自動將其分為“汗”,“出”兩個字,而我們需要將“汗出”視為一詞,故在IK自定義詞 ...

Fri Aug 10 18:07:00 CST 2018 0 1962
我的搜索優化記錄(一):中文分詞優化IK Analyzer

搜索絕對不僅僅是搭起框架,跑出結果就完成的工作,之后分詞、排序等等的優化才是重頭戲。 先交代下背景:這個搜索是我一個人負責搭建並優化的項目,主要索引對象為歌曲、歌手MV等等。 使用技術:Lucene、IK_Analyzer 既然這篇博客是關於中文分詞優化,那么先看我現在 ...

Thu Sep 24 23:27:00 CST 2015 2 7427
[solr] - IKAnalyzer 分詞加入

1、下載IK Analyzer中文分詞器:http://ik-analyzer.googlecode.com/files/IK%20Analyzer%202012FF_hf1.zip 2、解壓出zip文件,將IKAnalyzer2012FF_u1.jar復制到tomcat中的solr ...

Thu Sep 18 19:54:00 CST 2014 0 2471
關於Solr搜索標點與符號的中文分詞你必須知道的(mmseg源碼改造)

關於Solr搜索標點與符號的中文分詞你必須知道的(mmseg源碼改造) 摘要:在中文搜索中的標點、符號往往也是有語義的,比如我們要搜索“C++”或是“C#”,我們不希望搜索出來的全是“C”吧?那樣對程序員來說是個噩夢。然而在中文分詞工具mmseg中,它的中文分詞是將標點與符號均去除 ...

Thu May 14 08:00:00 CST 2015 0 3075
solr中文分詞

solr分詞,就是solr配置的字段類型根據注冊的分詞文件分詞斷句的行為。 例如:你們村村通工程知道嗎? 不分詞的時候會是這樣: 分詞的話,我們把“村村通工程 ”名詞化,分詞結果為: 說說中文分詞 中文分詞器有多中 ...

Mon Feb 27 23:40:00 CST 2017 0 4352
Java solr 分詞

  代碼如下: ...

Thu Dec 14 22:17:00 CST 2017 0 1068
 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM