原文:信息检索导论学习笔记(6)-索引压缩

索引压缩 为什么要压缩 增加内存存储内容, 增加高速缓存 caching 技术的利用率 加快速度 加快从磁盘到内存的数据传输速度 同样加快速度 。 读压缩数据到内存 在内存中解压 比直接读入未压缩数据要快很多。 前提: 解压速度要很快 减少磁盘空间 节省开销 词典压缩: 词典压缩的主要动机: 使之能够尽量放入内存中 倒排记录表压缩:倒排记录表压缩的主要动机: 减少磁盘存储空间,减少从磁盘读入内存的 ...

2012-08-17 17:04 3 2795 推荐指数:

查看详情

信息检索导论学习笔记(2)

词项词典及倒排记录表 回顾倒排索引的构建 收集待建索引的原文档(Document) 将原文档传给词条化工具(Tokenizer)进行文本词条化 将第二步得到的词条(Token)传给语言分析工具(Linguistic modules)进行语言学预处理,得到词项(Term ...

Fri Aug 10 23:46:00 CST 2012 0 3258
信息检索导论学习笔记(3)

词典及容错式检索 如上图,倒排索引记录表构建好后。对于查询请求“solr”,我们的首要任务是确定查询词项solr是否在词典的词项词汇表中,如果在,则返回该词项对应的倒排记录表的指针。如何在数据结构(即词典)中快速定位词项? 词典(即存储词项词汇表的数据结构) 快速定位词项主要有两大类 ...

Mon Aug 13 20:48:00 CST 2012 3 3033
信息检索导论学习笔记(4)

索引构建 回顾倒排索引的构建,首先,我们扫描一遍文档集合得到所有的词项—文档 ID 对。然后,我们以词项为主键、文档 ID 为次键进行排序。最后,将每个词项的文档 ID组织成倒排记录表, 并计算诸如词项频率或者文档频率的统计量。对于小规模文档集来说,上述过程均可在内存中完成。对于大规模文档集 ...

Thu Aug 16 00:30:00 CST 2012 0 3104
信息检索导论学习笔记(1)

布尔检索 信息检索概述 信息检索:是从大规模非结构化数据(通常是文本)的集合(通常保存在计算机上)中找出满足用户信息需求的资料(通常是文档)的过程。 Information Retrieval (IR) is finding material (usually documents ...

Fri Aug 10 23:35:00 CST 2012 1 2678
笔记】黄如花.信息检索.学习心得

【博客导航】 【信息检索导航】 学习心得 信息检索学习的目的是为了从浩瀚的信息中,获取对工作、学习、生活有意义的信息,作为非研究学者,重点在于应用这些知识。 子女教育方面,检索关键词:英语语法视频,初中生必背古诗词,散文 朗诵,游戏 化学反应,中外经典视听图书馆,世界经典 ...

Thu Dec 20 07:56:00 CST 2018 0 940
Android学习笔记之使用百度地图实现路线规划+公交信息检索

PS:装了个deepin,感觉真的很高大上. 学习内容: 1.公交信息检索 2.路线规划 关于百度地图的开发也就这么多了.重要的部分也就那么些.原本打算搞到poi搜索就算了,不过看到了这两个方面还是忍不住去涉猎一下.其实实现的模式和poi搜索没有什么太多的区别.只要将数据 ...

Mon Dec 14 04:20:00 CST 2015 0 6186
信息检索————NDCG计算

先贴代码,原理有时间补上。 代码中两种方式实现了ndcg的计算,调用的时候需要注意一下。 ...

Sat Apr 25 00:18:00 CST 2020 0 903
Information retrieval信息检索

python机器学习-乳腺癌细胞挖掘(博主亲自录制视频)https://study.163.com/course/introduction.htm?courseId=1005269003&utm_campaign=commission&utm_source ...

Thu Nov 10 01:12:00 CST 2016 0 2862
 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM