TF-IDF 前言 前段时间,又具体看了自己以前整理的TF-IDF,这里把它发布在博客上,知识就是需要不断的重复的,否则就感觉生疏了。 TF-IDF理解 TF-IDF(term frequen ...
TF-IDF 前言 前段时间,又具体看了自己以前整理的TF-IDF,这里把它发布在博客上,知识就是需要不断的重复的,否则就感觉生疏了。 TF-IDF理解 TF-IDF(term frequen ...
前言:本文主要介绍PLSA及EM算法,首先给出LSA(隐性语义分析)的早期方法SVD,然后引入基于概率的PLSA模型,其参数学习采用EM算法。接着我们分析如何运用EM算法估计一个简单的mixture ...
MAP(Mean Average Precision): 单个主题的平均准确率是每篇相关文档检索出后的准确率的平均值。主集合的平均准确率(MAP)是每个主题的平均准确率的平均值。MAP 是反映系统在 ...
距离本意就是两个目标的某一特征集从一个变成另一个需要的最小操作。广泛使用于相似度比较领域。机器学习中经常用的距离有: 1. 欧氏距离 ( Euclidean Distances) 2. 曼哈顿距离 ...
协同过滤(collaborative filtering,CF)算法主要分为memory-based CF 和 model-based CF,而memory-based CF 包括user-based ...
Precision & Recall 先看下面这张图来理解了,后面再具体分析。下面用P代表Precision,R代表Recall 通俗的讲,Precision 就是检索出来的条目中(比 ...
建立索引 目前主流的索引技术有三种:倒排文件、后缀数组和签名。后缀数组的方法虽然快,但是其维护困难,代价相当高,不适合做引擎的索引。签名是一种很好的索引方式,但倒排文件的速度和性能已经超过了签名。倒 ...
衡量搜索引擎质量指标(DCG -- Discounted Cumulative Gain) DCG的英文全称是Discounted cumulative gain,它是一个衡量搜索引擎算法的指标 ...
1. Pearson相关 http://en.wikipedia.org/wiki/Pearson_product-moment_correlation_coefficient Pearson相关 ...