標簽【IR】 - 碼上歡樂

Deep Learning（深度學習）： ufldl的2個教程(這個沒得說，入門絕對的好教程，Ng的，邏輯清晰有練習)：一 ufldl的2個教程(這個沒得說，入門絕對的好教程，Ng的，邏輯清 ...

TF-IDF 前言前段時間，又具體看了自己以前整理的TF-IDF，這里把它發布在博客上，知識就是需要不斷的重復的，否則就感覺生疏了。 TF-IDF理解 TF-IDF（term frequen ...

　　馬克·吐溫曾經說過，所謂經典小說，就是指很多人希望讀過，但很少人真正花時間去讀的小說。這種說法同樣適用於“經典”的計算機書籍。　　最近一直在看LSH，不過由於matlab基礎比較差，一直沒搞懂 ...

PLSA及EM算法

前言：本文主要介紹PLSA及EM算法，首先給出LSA（隱性語義分析）的早期方法SVD，然后引入基於概率的PLSA模型，其參數學習采用EM算法。接着我們分析如何運用EM算法估計一個簡單的mixture ...

　　上一年記錄的東西，整理下... 　　需要代碼聯系我QQ：791909235，本人不做義務咨詢。一.哈希檢索概述　　LSH是Locality Sensitive Hashing的縮寫，也翻 ...

　　搜集了快一個月的資料，雖然不完全懂，但還是先慢慢寫着吧，說不定就有思路了呢。　　開源的最大好處是會讓作者對臟亂臭的代碼有羞恥感。　　當一個做推薦系統的部門開始重視【數據清理，數據標柱，效果 ...

MAP(Mean Average Precision)：單個主題的平均准確率是每篇相關文檔檢索出后的准確率的平均值。主集合的平均准確率(MAP)是每個主題的平均准確率的平均值。MAP 是反映系統在 ...

為了能夠更好的評價IR系統的性能，IR有一套完整的評價體系，通過評價體系可以了解不同信息系統的優劣，不同檢索模型的特點，不同因素對信息檢索的影響，從而對信息檢索進一步優化。由於IR的目標是在較短時 ...

距離公式

距離本意就是兩個目標的某一特征集從一個變成另一個需要的最小操作。廣泛使用於相似度比較領域。機器學習中經常用的距離有： 1. 歐氏距離 ( Euclidean Distances) 2. 曼哈頓距離 ...

協同過濾（collaborative filtering，CF）算法主要分為memory-based CF 和 model-based CF，而memory-based CF 包括user-based ...