原文:新手學信息檢索5:正確率-召回率與搜索引擎的評價

這篇就簡單介紹一下搜索引擎的評價方法。從用戶的角度去評價一個搜索引擎的檢索效果最好的方法就是計算用戶在查到自己滿意文檔時已經瀏覽的文檔數。但是實際中,查詢千變萬化,文檔也千變萬化,所以這種方法不可行。人們便提出了下面的概念,並建立了一個評價標准。 這里面有三個常用的概念:正確率,精確率,召回率。 正確率 Precision,簡稱為P 定義為:P 返回結果中相關文檔個數 返回結果的數目。 精確率 a ...

2013-01-09 11:17 0 3131 推薦指數:

查看詳情

召回(Recall),精確(Precision),平均正確率

https://blog.csdn.net/yanhx1204/article/details/81017134 摘要 在訓練YOLO v2的過程中,系統會顯示出一些評價訓練效果的值,如Recall,IoU等等。為了怕以后忘了,現在把自己對這幾種度量方式的理解記錄一下。 這一 ...

Tue Apr 02 21:30:00 CST 2019 0 1407
信息檢索 - SDU新聞網站Python全站爬取+索引構建+搜索引擎

信息檢索課程設計sdu視點新聞全站Python爬蟲爬取+索引構建+搜索引擎查詢練習程序(1805)。 以前在gh倉庫總結的內容,沒想到被人轉載不帶出處,不如我自己來發一遍叭。 源代碼:Github 爬蟲功能使用Python的scrapy庫實現,並用MongoDB數據庫進行存儲 ...

Thu Oct 08 08:06:00 CST 2020 0 546
新手信息檢索2:倒排表與存儲

這篇就說一個信息檢索里面理解最簡單的一個東西吧,它就叫做倒排表或者倒排索引。但是這只是個名字,我想大家都知道它是什么就行了,不必糾結於名稱。先說說倒排表張什么樣子吧! 倒排表以詞做索引,內容為包含該詞的文檔編號。對於上圖可知,文檔1、3、5、7、9包含詞"Cat",文檔2、5、8、10包含詞 ...

Mon Jan 07 01:11:00 CST 2013 3 3203
機器學習 | 分類性能度量指標 : ROC曲線、AUC值、正確率召回

本篇博客的圖源來自 zhwhong,轉載僅作學習使用! 在分類任務中,人們總是喜歡基於錯誤來衡量分類器任務的成功程度。錯誤指的是在所有測試樣例中錯分的樣例比例。實際上,這樣的度量錯誤掩蓋了樣例如何被分錯的事實。在機器學習中,有一個普遍適用的稱為混淆矩陣(confusion ...

Tue Oct 26 06:29:00 CST 2021 0 305
新手信息檢索4:向量空間模型與相似度計算

相似度從字面上理解就是兩個事物的相似程度。在信息檢索中,相似度表示的是兩個文檔之間的相似程度或者查詢與文檔的相似程度。 首先回想一下檢索過程: 1:首先用戶輸入查詢詞。 2:搜索引擎根據查詢詞查找相應的文檔。 3:搜索引擎把查詢結果以一定的方式顯示給用戶。 那么一篇文檔是否滿足用戶的查詢 ...

Tue Jan 08 18:48:00 CST 2013 0 3925
怎樣量化評價搜索引擎的結果質量

搜索質量評估是搜索技術研究的基礎性工作,也是核心工作之一。評價(Metrics)在搜索技術研發中扮演着重要角色,以至於任何一種新方法與他們的評價方式是融為一體的。 搜索引擎結果的好壞與否,體現在業界所稱的在相關性(Relevance)上。相關性的定義包括狹義和廣義兩方面,狹義的解釋 ...

Thu Oct 11 00:24:00 CST 2012 0 6464
 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM