原文:新手学信息检索5:正确率-召回率与搜索引擎的评价

这篇就简单介绍一下搜索引擎的评价方法。从用户的角度去评价一个搜索引擎的检索效果最好的方法就是计算用户在查到自己满意文档时已经浏览的文档数。但是实际中,查询千变万化,文档也千变万化,所以这种方法不可行。人们便提出了下面的概念,并建立了一个评价标准。 这里面有三个常用的概念:正确率,精确率,召回率。 正确率 Precision,简称为P 定义为:P 返回结果中相关文档个数 返回结果的数目。 精确率 a ...

2013-01-09 11:17 0 3131 推荐指数:

查看详情

召回(Recall),精确(Precision),平均正确率

https://blog.csdn.net/yanhx1204/article/details/81017134 摘要 在训练YOLO v2的过程中,系统会显示出一些评价训练效果的值,如Recall,IoU等等。为了怕以后忘了,现在把自己对这几种度量方式的理解记录一下。 这一 ...

Tue Apr 02 21:30:00 CST 2019 0 1407
信息检索 - SDU新闻网站Python全站爬取+索引构建+搜索引擎

信息检索课程设计sdu视点新闻全站Python爬虫爬取+索引构建+搜索引擎查询练习程序(1805)。 以前在gh仓库总结的内容,没想到被人转载不带出处,不如我自己来发一遍叭。 源代码:Github 爬虫功能使用Python的scrapy库实现,并用MongoDB数据库进行存储 ...

Thu Oct 08 08:06:00 CST 2020 0 546
新手信息检索2:倒排表与存储

这篇就说一个信息检索里面理解最简单的一个东西吧,它就叫做倒排表或者倒排索引。但是这只是个名字,我想大家都知道它是什么就行了,不必纠结于名称。先说说倒排表张什么样子吧! 倒排表以词做索引,内容为包含该词的文档编号。对于上图可知,文档1、3、5、7、9包含词"Cat",文档2、5、8、10包含词 ...

Mon Jan 07 01:11:00 CST 2013 3 3203
机器学习 | 分类性能度量指标 : ROC曲线、AUC值、正确率召回

本篇博客的图源来自 zhwhong,转载仅作学习使用! 在分类任务中,人们总是喜欢基于错误来衡量分类器任务的成功程度。错误指的是在所有测试样例中错分的样例比例。实际上,这样的度量错误掩盖了样例如何被分错的事实。在机器学习中,有一个普遍适用的称为混淆矩阵(confusion ...

Tue Oct 26 06:29:00 CST 2021 0 305
新手信息检索4:向量空间模型与相似度计算

相似度从字面上理解就是两个事物的相似程度。在信息检索中,相似度表示的是两个文档之间的相似程度或者查询与文档的相似程度。 首先回想一下检索过程: 1:首先用户输入查询词。 2:搜索引擎根据查询词查找相应的文档。 3:搜索引擎把查询结果以一定的方式显示给用户。 那么一篇文档是否满足用户的查询 ...

Tue Jan 08 18:48:00 CST 2013 0 3925
怎样量化评价搜索引擎的结果质量

搜索质量评估是搜索技术研究的基础性工作,也是核心工作之一。评价(Metrics)在搜索技术研发中扮演着重要角色,以至于任何一种新方法与他们的评价方式是融为一体的。 搜索引擎结果的好坏与否,体现在业界所称的在相关性(Relevance)上。相关性的定义包括狭义和广义两方面,狭义的解释 ...

Thu Oct 11 00:24:00 CST 2012 0 6464
 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM