TF-IDF 前言 前段時間,又具體看了自己以前整理的TF-IDF,這里把它發布在博客上,知識就是需要不斷的重復的,否則就感覺生疏了。 TF-IDF理解 TF-IDF(term frequen ...
TF-IDF 前言 前段時間,又具體看了自己以前整理的TF-IDF,這里把它發布在博客上,知識就是需要不斷的重復的,否則就感覺生疏了。 TF-IDF理解 TF-IDF(term frequen ...
前言:本文主要介紹PLSA及EM算法,首先給出LSA(隱性語義分析)的早期方法SVD,然后引入基於概率的PLSA模型,其參數學習采用EM算法。接着我們分析如何運用EM算法估計一個簡單的mixture ...
MAP(Mean Average Precision): 單個主題的平均准確率是每篇相關文檔檢索出后的准確率的平均值。主集合的平均准確率(MAP)是每個主題的平均准確率的平均值。MAP 是反映系統在 ...
距離本意就是兩個目標的某一特征集從一個變成另一個需要的最小操作。廣泛使用於相似度比較領域。機器學習中經常用的距離有: 1. 歐氏距離 ( Euclidean Distances) 2. 曼哈頓距離 ...
協同過濾(collaborative filtering,CF)算法主要分為memory-based CF 和 model-based CF,而memory-based CF 包括user-based ...
Precision & Recall 先看下面這張圖來理解了,后面再具體分析。下面用P代表Precision,R代表Recall 通俗的講,Precision 就是檢索出來的條目中(比 ...
建立索引 目前主流的索引技術有三種:倒排文件、后綴數組和簽名。后綴數組的方法雖然快,但是其維護困難,代價相當高,不適合做引擎的索引。簽名是一種很好的索引方式,但倒排文件的速度和性能已經超過了簽名。倒 ...
衡量搜索引擎質量指標(DCG -- Discounted Cumulative Gain) DCG的英文全稱是Discounted cumulative gain,它是一個衡量搜索引擎算法的指標 ...
1. Pearson相關 http://en.wikipedia.org/wiki/Pearson_product-moment_correlation_coefficient Pearson相關 ...