标签【IR】 - 码上欢乐

本人常用资源整理(ing...)

Deep Learning（深度学习）： ufldl的2个教程(这个没得说，入门绝对的好教程，Ng的，逻辑清晰有练习)：一 ufldl的2个教程(这个没得说，入门绝对的好教程，Ng的，逻辑清 ...

TF-IDF理解及其Java实现

TF-IDF 前言前段时间，又具体看了自己以前整理的TF-IDF，这里把它发布在博客上，知识就是需要不断的重复的，否则就感觉生疏了。 TF-IDF理解 TF-IDF（term frequen ...

彻底弄懂LSH之simHash算法

　　马克·吐温曾经说过，所谓经典小说，就是指很多人希望读过，但很少人真正花时间去读的小说。这种说法同样适用于“经典”的计算机书籍。　　最近一直在看LSH，不过由于matlab基础比较差，一直没搞懂 ...

PLSA及EM算法

前言：本文主要介绍PLSA及EM算法，首先给出LSA（隐性语义分析）的早期方法SVD，然后引入基于概率的PLSA模型，其参数学习采用EM算法。接着我们分析如何运用EM算法估计一个简单的mixture ...

浅析常用局部敏感哈希算法

　　上一年记录的东西，整理下... 　　需要代码联系我QQ：791909235，本人不做义务咨询。一.哈希检索概述　　LSH是Locality Sensitive Hashing的缩写，也翻 ...

　　搜集了快一个月的资料，虽然不完全懂，但还是先慢慢写着吧，说不定就有思路了呢。　　开源的最大好处是会让作者对脏乱臭的代码有羞耻感。　　当一个做推荐系统的部门开始重视【数据清理，数据标柱，效果 ...

IR的评价指标-MAP,NDCG和MRR

MAP(Mean Average Precision)：单个主题的平均准确率是每篇相关文档检索出后的准确率的平均值。主集合的平均准确率(MAP)是每个主题的平均准确率的平均值。MAP 是反映系统在 ...

为了能够更好的评价IR系统的性能，IR有一套完整的评价体系，通过评价体系可以了解不同信息系统的优劣，不同检索模型的特点，不同因素对信息检索的影响，从而对信息检索进一步优化。由于IR的目标是在较短时 ...

距离公式

距离本意就是两个目标的某一特征集从一个变成另一个需要的最小操作。广泛使用于相似度比较领域。机器学习中经常用的距离有： 1. 欧氏距离 ( Euclidean Distances) 2. 曼哈顿距离 ...

memory-based 协同过滤（CF）方法

协同过滤（collaborative filtering，CF）算法主要分为memory-based CF 和 model-based CF，而memory-based CF 包括user-based ...