原文:新手学信息检索4:向量空间模型与相似度计算

相似度从字面上理解就是两个事物的相似程度。在信息检索中,相似度表示的是两个文档之间的相似程度或者查询与文档的相似程度。 首先回想一下检索过程: :首先用户输入查询词。 :搜索引擎根据查询词查找相应的文档。 :搜索引擎把查询结果以一定的方式显示给用户。 那么一篇文档是否满足用户的查询需求可以用文本与查询的相似程度来衡量。而相似度到最后总能够计算成一个实数,所以可以根据文档与查询的相似度进行排序。与查 ...

2013-01-08 10:48 0 3925 推荐指数:

查看详情

信息检索技术——向量空间模型

上次介绍了信息检索技术——布尔检索,布尔模型已经可以解决一个很重要的问题,就是找到和用户需求相关的文档(其中还需要很多处理,比如分词,归一化,去掉停用词等等,我们只是介绍主要的框架流程)。但是这样找到的文档会有很多,也许上千个,也许上万个,这远远不是用户所要的。用户也不会去从几万个文档中挑选 ...

Wed Mar 28 17:49:00 CST 2012 3 11293
新手信息检索2:倒排表与存储

这篇就说一个信息检索里面理解最简单的一个东西吧,它就叫做倒排表或者倒排索引。但是这只是个名字,我想大家都知道它是什么就行了,不必纠结于名称。先说说倒排表张什么样子吧! 倒排表以词做索引,内容为包含该词的文档编号。对于上图可知,文档1、3、5、7、9包含词"Cat",文档2、5、8、10包含词 ...

Mon Jan 07 01:11:00 CST 2013 3 3203
新手信息检索5:正确率-召回率与搜索引擎的评价

这篇就简单介绍一下搜索引擎的评价方法。从用户的角度去评价一个搜索引擎的检索效果最好的方法就是计算用户在查到自己满意文档时已经浏览的文档数。但是实际中,查询千变万化,文档也千变万化,所以这种方法不可行。人们便提出了下面的概念,并建立了一个评价标准。 这里面有三个常用的概念:正确率,精确率,召回率 ...

Wed Jan 09 19:17:00 CST 2013 0 3131
信息检索————NDCG计算

先贴代码,原理有时间补上。 代码中两种方式实现了ndcg的计算,调用的时候需要注意一下。 ...

Sat Apr 25 00:18:00 CST 2020 0 903
使用 TF-IDF 加权的空间向量模型实现句子相似计算

使用 TF-IDF 加权的空间向量模型实现句子相似计算 字符匹配层次计算句子相似 计算两个句子相似的算法有很多种,但是对于从未了解过这方面算法的人来说,可能最容易想到的就是使用字符串匹配相关的算法,来检查两个句子所对应的字符串的字符相似程度。比如单纯的进行子串匹配,搜索 A 串中能与 ...

Mon Feb 17 21:25:00 CST 2020 0 1322
文本信息检索——布尔模型和TF-IDF模型

文本信息检索——布尔模型和TF-IDF模型 1. 布尔模型 ​ 如要检索“布尔检索”或“概率检索”但不包括“向量检索”方面的文档,其相应的查询表达式为:Q=检索 and (布尔or 概率 not向量),那么Q可以在其相应的(检索,布尔,概率,向量)标引词向量上取(1,1,0,0 ...

Mon Jun 03 06:23:00 CST 2019 0 826
 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM