花费 22 ms
TF-IDF理解及其Java实现

TF-IDF 前言 前段时间,又具体看了自己以前整理的TF-IDF,这里把它发布在博客上,知识就是需要不断的重复的,否则就感觉生疏了。 TF-IDF理解 TF-IDF(term frequen ...

Mon Aug 26 23:20:00 CST 2013 10 25702
PLSA及EM算法

前言:本文主要介绍PLSA及EM算法,首先给出LSA(隐性语义分析)的早期方法SVD,然后引入基于概率的PLSA模型,其参数学习采用EM算法。接着我们分析如何运用EM算法估计一个简单的mixture ...

Tue Feb 18 00:43:00 CST 2014 1 10527
IR的评价指标-MAP,NDCG和MRR

MAP(Mean Average Precision): 单个主题的平均准确率是每篇相关文档检索出后的准确率的平均值。主集合的平均准确率(MAP)是每个主题的平均准确率的平均值。MAP 是反映系统在 ...

Fri Aug 16 23:21:00 CST 2013 0 10199
距离公式

距离本意就是两个目标的某一特征集从一个变成另一个需要的最小操作。广泛使用于相似度比较领域。机器学习中经常用的距离有: 1. 欧氏距离 ( Euclidean Distances) 2. 曼哈顿距离 ...

Tue Dec 31 00:41:00 CST 2013 0 7826
memory-based 协同过滤(CF)方法

协同过滤(collaborative filtering,CF)算法主要分为memory-based CF 和 model-based CF,而memory-based CF 包括user-based ...

Wed Feb 12 19:05:00 CST 2014 0 5866
查准与召回(Precision & Recall)

Precision & Recall 先看下面这张图来理解了,后面再具体分析。下面用P代表Precision,R代表Recall 通俗的讲,Precision 就是检索出来的条目中(比 ...

Sat Aug 17 18:55:00 CST 2013 1 4614
倒排文件索引(Inverted File Index)的建立

建立索引 目前主流的索引技术有三种:倒排文件、后缀数组和签名。后缀数组的方法虽然快,但是其维护困难,代价相当高,不适合做引擎的索引。签名是一种很好的索引方式,但倒排文件的速度和性能已经超过了签名。倒 ...

Tue Dec 11 03:41:00 CST 2012 1 4555
CG, DCG, NDCG

衡量搜索引擎质量指标(DCG -- Discounted Cumulative Gain)   DCG的英文全称是Discounted cumulative gain,它是一个衡量搜索引擎算法的指标 ...

Wed Nov 21 23:53:00 CST 2012 0 4384

 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM