花費 9 ms
TF-IDF理解及其Java實現

TF-IDF 前言 前段時間,又具體看了自己以前整理的TF-IDF,這里把它發布在博客上,知識就是需要不斷的重復的,否則就感覺生疏了。 TF-IDF理解 TF-IDF(term frequen ...

Mon Aug 26 23:20:00 CST 2013 10 25702
PLSA及EM算法

前言:本文主要介紹PLSA及EM算法,首先給出LSA(隱性語義分析)的早期方法SVD,然后引入基於概率的PLSA模型,其參數學習采用EM算法。接着我們分析如何運用EM算法估計一個簡單的mixture ...

Tue Feb 18 00:43:00 CST 2014 1 10527
IR的評價指標-MAP,NDCG和MRR

MAP(Mean Average Precision): 單個主題的平均准確率是每篇相關文檔檢索出后的准確率的平均值。主集合的平均准確率(MAP)是每個主題的平均准確率的平均值。MAP 是反映系統在 ...

Fri Aug 16 23:21:00 CST 2013 0 10199
距離公式

距離本意就是兩個目標的某一特征集從一個變成另一個需要的最小操作。廣泛使用於相似度比較領域。機器學習中經常用的距離有: 1. 歐氏距離 ( Euclidean Distances) 2. 曼哈頓距離 ...

Tue Dec 31 00:41:00 CST 2013 0 7826
memory-based 協同過濾(CF)方法

協同過濾(collaborative filtering,CF)算法主要分為memory-based CF 和 model-based CF,而memory-based CF 包括user-based ...

Wed Feb 12 19:05:00 CST 2014 0 5866
查准與召回(Precision & Recall)

Precision & Recall 先看下面這張圖來理解了,后面再具體分析。下面用P代表Precision,R代表Recall 通俗的講,Precision 就是檢索出來的條目中(比 ...

Sat Aug 17 18:55:00 CST 2013 1 4614
倒排文件索引(Inverted File Index)的建立

建立索引 目前主流的索引技術有三種:倒排文件、后綴數組和簽名。后綴數組的方法雖然快,但是其維護困難,代價相當高,不適合做引擎的索引。簽名是一種很好的索引方式,但倒排文件的速度和性能已經超過了簽名。倒 ...

Tue Dec 11 03:41:00 CST 2012 1 4555
CG, DCG, NDCG

衡量搜索引擎質量指標(DCG -- Discounted Cumulative Gain)   DCG的英文全稱是Discounted cumulative gain,它是一個衡量搜索引擎算法的指標 ...

Wed Nov 21 23:53:00 CST 2012 0 4384

 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM