原文:HubbleDotNet 索引分词的测试方法和分词技巧

在中文搜索中,分词技术是一个比较关键的技术,我们往往会遇到查询某个关键字无法匹配到相应文档的问题,这种问题往往都是索引的分词不理想造成的,倒排索引的技术特点决定了如果查询的关键字不在索引的分词中,则无法查出相应的文档。为了帮助使用者分析分词问题,hubbledotnet 专门提供几个存储过程来帮助检查索引分词的情况。 分词的测试方法 首先要找到要测试的原始文本 我们往往发现某些记录包含有查询关键字 ...

2012-02-15 09:27 13 7293 推荐指数:

查看详情

lucene:索引 -不分词

package com.capinfotech.faq.classifier; import java.util.*; import java.io.File; import java.io.I ...

Fri Dec 20 00:49:00 CST 2013 0 5295
7、ElasticSearch 索引分词

正排索引 由文档去找关键词 倒排索引 由关键词 去找文档 倒排索引:保留关键词及对应文档的对应关系 索引模块 组成部分 索引过程 停用词 中文分词 ...

Sat Jun 15 22:20:00 CST 2019 0 1915
elasticsearch 进行分词测试

1,打开kibana: GET /scddb/_analyze { "text": "蓝瘦香菇", "analyzer": "ik_max_word" //ik_smart} 测试分词效果如下,不是很理想: { "tokens" : [ { "token" : "蓝 ...

Wed Dec 04 23:42:00 CST 2019 0 533
浅谈分词算法(2)基于词典的分词方法

目录 前言 目录 基本原理 贝叶斯公式 分词中的贝叶斯 2-gram分词举例 1-gram实例 建立前缀字典树 建立DAG 利用动态规划得到最大概率路径 动态规划求解 ...

Sun Feb 25 01:21:00 CST 2018 0 5579
浅谈分词算法基于字的分词方法(HMM)

前言 在浅谈分词算法(1)分词中的基本问题我们讨论过基于词典的分词和基于字的分词两大类,在浅谈分词算法(2)基于词典的分词方法文中我们利用n-gram实现了基于词典的分词方法。在(1)中,我们也讨论了这种方法有的缺陷,就是OOV的问题,即对 ...

Tue Jul 02 23:11:00 CST 2019 0 451
Elasticsearch (1) - 索引库 文档 分词

创建索引库 ES的索引库是一个逻辑概念,它包括了分词列表及文档列表,同一个索引库中存储了相同类型的文档。它就相当于MySQL中的表,或相当于Mongodb中的集合。 关于索引这个语: 索引(名词):ES是基于Lucene构建的一个搜索服务,它要从索引库搜索符合条件索引数据。 索引(动词 ...

Tue May 07 23:09:00 CST 2019 0 601
 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM