原文:新手学信息检索2:倒排表与存储

这篇就说一个信息检索里面理解最简单的一个东西吧,它就叫做倒排表或者倒排索引。但是这只是个名字,我想大家都知道它是什么就行了,不必纠结于名称。先说说倒排表张什么样子吧 倒排表以词做索引,内容为包含该词的文档编号。对于上图可知,文档 包含词 Cat ,文档 包含词 Dog 。你可能问这么简单的东西能干啥 其实他就是搜索引擎中的最关键的核心数据结构。那么搜索引擎如何根据用户的查询来找到相关的文档呢 如果 ...

2013-01-06 17:11 3 3203 推荐指数:

查看详情

新手信息检索5:正确率-召回率与搜索引擎的评价

这篇就简单介绍一下搜索引擎的评价方法。从用户的角度去评价一个搜索引擎的检索效果最好的方法就是计算用户在查到自己满意文档时已经浏览的文档数。但是实际中,查询千变万化,文档也千变万化,所以这种方法不可行。人们便提出了下面的概念,并建立了一个评价标准。 这里面有三个常用的概念:正确率,精确率,召回率 ...

Wed Jan 09 19:17:00 CST 2013 0 3131
新手信息检索4:向量空间模型与相似度计算

相似度从字面上理解就是两个事物的相似程度。在信息检索中,相似度表示的是两个文档之间的相似程度或者查询与文档的相似程度。 首先回想一下检索过程: 1:首先用户输入查询词。 2:搜索引擎根据查询词查找相应的文档。 3:搜索引擎把查询结果以一定的方式显示给用户。 那么一篇文档是否满足用户的查询 ...

Tue Jan 08 18:48:00 CST 2013 0 3925
信息检索————NDCG计算

先贴代码,原理有时间补上。 代码中两种方式实现了ndcg的计算,调用的时候需要注意一下。 ...

Sat Apr 25 00:18:00 CST 2020 0 903
Information retrieval信息检索

python机器学习-乳腺癌细胞挖掘(博主亲自录制视频)https://study.163.com/course/introduction.htm?courseId=1005269003 ...

Thu Nov 10 01:12:00 CST 2016 0 2862
信息检索——分词处理

在全文检索中,分词处理对性能的影响很大,包括索引大小、检索速度、准确度等方面。 一个好的分词处理应该具备哪些特性呢? 1)速度、准确度 2)自定义词典 3)对英文、数字符号、日期、繁简转换等的优化 中文分词算法大概分为两大类 1、字符串匹配(基于词典)   这一算法其实就是使用 ...

Wed Jun 28 04:42:00 CST 2017 0 1153
(一)信息检索中的排序

总览 搜索引擎的六个核心组件:爬虫、解析、索引、链接关系分析、查询处理、排名 信息检索中的代表性排序模型: 1)传统的排序模型:两类 1. 相关性排序模型: a) Boolean model: 基于查询term在文档里出现的情况,但不能预测相关性 ...

Tue Jul 10 06:09:00 CST 2018 0 2087
信息检索评价方法

测试数据集 一个文档集 一组用于测试的信息需求集合,信息需求可以表示为查询 一组相关性判定结果,对应每个查询-文档,通常会赋予一个二值判定结果: 相关/不相关 经验发现一般测试的查询数应>=50。 无序检索结果的评价 准确率和召回率 对于一个查询,根据其返回 ...

Tue May 09 23:49:00 CST 2017 0 1810
信息检索技术——布尔检索

前一阵子和大家分享了一系列排序算法,希望对大家能够有一些帮助。从今天开始,本人打算开展一个新的领域,介绍一下信息检索相关的技术。信息检索技术可以说现如今发展非常迅速,使用也极其广泛,甚至可以说是随处可见。特别是做一些跟搜索引擎,机器学习相关工作时,信息检索的知识无处不在。为了让大家更好的理解 ...

Tue Mar 27 23:23:00 CST 2012 1 5634
 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM