from:https://www.zhihu.com/question/24675366?sort=created 中文:主要是从拼音角度,比如输入“雷缝”(雷锋),使用编辑距离会改变要查询的语义,所以我们从同音词入手,使用噪声信道模型,先确定出一些常见的相关词,再确定概率 ...
搜索引擎是目前人们获取信息最重要的方式之一,其最基本最核心的功能是信息检索,找到含有关键字的网页或文档,然后按照一定排序将结果给出,在此基础之上,能够提供更多更复杂的功能来提升用户体验。对于一个成熟的搜索系统,用户看似简单的搜索过程,需要在系统中经过多个环节,多个模块协同工作,才能提供一个让人满意的搜索结果。在搜索引擎输入的查询中,有相当一部分是带输入错误的查询。而提交有错误的查询给搜索引擎,通 ...
2018-11-10 21:37 0 1127 推荐指数:
from:https://www.zhihu.com/question/24675366?sort=created 中文:主要是从拼音角度,比如输入“雷缝”(雷锋),使用编辑距离会改变要查询的语义,所以我们从同音词入手,使用噪声信道模型,先确定出一些常见的相关词,再确定概率 ...
这些天在为以后工作做一些知识储备,所以想从总体上大致了解下搜索引擎的知识框架同时对较为重要的部分有个较为深入的了解。记得在微博上看到有人推荐张俊林同学的这本书,豆瓣上总体评价也不错就买来看了。这篇博客是对一个多月看此书的总结,第二部分用自己的话总结了搜索引擎的知识主线,其中结合了看书的笔记 ...
查询扩展 查询扩展的动机:提高召回率 问题:考虑查询q: [aircraft],某篇文档d包含“plane”, 但是不包含“aircraft”,显然对于查询q,一个简单的IR系统不会返回文档d,即使d是和q最相关的文档。我们试图改变这种做法:也就是说,我们会返回不包含查询词项的相关文档 ...
分词是搜索中最基本也是非常重要的一个功能,正确的分词是好的搜索效果的必要条件。 1. 分词粒度 分词中,最主要的问题是分词粒度问题。例如“射雕英雄传”,下面的几种分词方式,哪一种最正确? 最细粒度分词:【射雕,英雄,传】 正常粒度分词:【射雕,英雄传】 最粗粒度分词 ...
在mysql中输入下面的命令 查询命令: 查询结果: 指定搜索引擎: 修改搜索引擎: 查看表的搜索引擎: ...
lucene 和 es 的前世今生 lucene 是最先进、功能最强大的搜索库。如果直接基于 lucene 开发,非常复杂,即便写一些简单的功能,也要写大量的 Java 代码,需要深入理解原理。 elasticsearch 基于 lucene,隐藏了 lucene 的复杂性,提供了简单易用 ...
面试题 es 写入数据的工作原理是什么啊?es 查询数据的工作原理是什么啊?底层的 lucene 介绍一下呗?倒排索引了解吗? 面试官心理分析 问这个,其实面试官就是要看看你了解不了解 es 的一些基本原理,因为用 es 无非就是写入数据,搜索数据。你要是不明白你发起一个写入和搜索请求 ...
### site:52pojie.cn ...