原文:新手學信息檢索4:向量空間模型與相似度計算

相似度從字面上理解就是兩個事物的相似程度。在信息檢索中,相似度表示的是兩個文檔之間的相似程度或者查詢與文檔的相似程度。 首先回想一下檢索過程: :首先用戶輸入查詢詞。 :搜索引擎根據查詢詞查找相應的文檔。 :搜索引擎把查詢結果以一定的方式顯示給用戶。 那么一篇文檔是否滿足用戶的查詢需求可以用文本與查詢的相似程度來衡量。而相似度到最后總能夠計算成一個實數,所以可以根據文檔與查詢的相似度進行排序。與查 ...

2013-01-08 10:48 0 3925 推薦指數:

查看詳情

信息檢索技術——向量空間模型

上次介紹了信息檢索技術——布爾檢索,布爾模型已經可以解決一個很重要的問題,就是找到和用戶需求相關的文檔(其中還需要很多處理,比如分詞,歸一化,去掉停用詞等等,我們只是介紹主要的框架流程)。但是這樣找到的文檔會有很多,也許上千個,也許上萬個,這遠遠不是用戶所要的。用戶也不會去從幾萬個文檔中挑選 ...

Wed Mar 28 17:49:00 CST 2012 3 11293
新手信息檢索2:倒排表與存儲

這篇就說一個信息檢索里面理解最簡單的一個東西吧,它就叫做倒排表或者倒排索引。但是這只是個名字,我想大家都知道它是什么就行了,不必糾結於名稱。先說說倒排表張什么樣子吧! 倒排表以詞做索引,內容為包含該詞的文檔編號。對於上圖可知,文檔1、3、5、7、9包含詞"Cat",文檔2、5、8、10包含詞 ...

Mon Jan 07 01:11:00 CST 2013 3 3203
新手信息檢索5:正確率-召回率與搜索引擎的評價

這篇就簡單介紹一下搜索引擎的評價方法。從用戶的角度去評價一個搜索引擎的檢索效果最好的方法就是計算用戶在查到自己滿意文檔時已經瀏覽的文檔數。但是實際中,查詢千變萬化,文檔也千變萬化,所以這種方法不可行。人們便提出了下面的概念,並建立了一個評價標准。 這里面有三個常用的概念:正確率,精確率,召回率 ...

Wed Jan 09 19:17:00 CST 2013 0 3131
信息檢索————NDCG計算

先貼代碼,原理有時間補上。 代碼中兩種方式實現了ndcg的計算,調用的時候需要注意一下。 ...

Sat Apr 25 00:18:00 CST 2020 0 903
使用 TF-IDF 加權的空間向量模型實現句子相似計算

使用 TF-IDF 加權的空間向量模型實現句子相似計算 字符匹配層次計算句子相似 計算兩個句子相似的算法有很多種,但是對於從未了解過這方面算法的人來說,可能最容易想到的就是使用字符串匹配相關的算法,來檢查兩個句子所對應的字符串的字符相似程度。比如單純的進行子串匹配,搜索 A 串中能與 ...

Mon Feb 17 21:25:00 CST 2020 0 1322
文本信息檢索——布爾模型和TF-IDF模型

文本信息檢索——布爾模型和TF-IDF模型 1. 布爾模型 ​ 如要檢索“布爾檢索”或“概率檢索”但不包括“向量檢索”方面的文檔,其相應的查詢表達式為:Q=檢索 and (布爾or 概率 not向量),那么Q可以在其相應的(檢索,布爾,概率,向量)標引詞向量上取(1,1,0,0 ...

Mon Jun 03 06:23:00 CST 2019 0 826
 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM