最近一直在做相關推薦方面的研究與應用工作,召回率與准確率這兩個概念偶爾會遇到,知道意思,但是有時候要很清晰地向同學介紹則有點轉不過彎來。
召回率和准確率是數據挖掘中預測、互聯網中的搜索引擎等經常涉及的兩個概念和指標。
召回率:Recall,又稱“查全率”——還是查全率好記,也更能體現其實質意義。
准確率:Precision,又稱“精度”、“正確率”。
以檢索為例,可以把搜索情況用下圖表示:
相關
|
不相關
|
|
檢索到
|
A
|
B
|
未檢索到
|
C
|
D
|
A:檢索到的,相關的
(搜到的也想要的)
B:檢索到的,但是不相關的 (搜到的但沒用的)
C:未檢索到的,但卻是相關的 (沒搜到,然而實際上想要的)
D:未檢索到的,也不相關的 (沒搜到也沒用的)
如果我們希望:被檢索到的內容越多越好,這是追求“查全率”,即A/(A+C),越大越好。
如果我們希望:檢索到的文檔中,真正想要的、也就是相關的越多越好,不相關的越少越好,這是追求“准確率”,即A/(A+B),越大越好。
“召回率”與“准確率”雖然沒有必然的關系(從上面公式中可以看到),在實際應用中,是相互制約的。要根據實際需求,找到一個平衡點。
往往難以迅速反應的是“召回率”。我想這與字面意思也有關系,從“召回”的字面意思不能直接看到其意義。“召回”在中文的意思是:把xx調回來。“召回率”對應的英文“recall”,recall除了有上面說到的“order sth to return”的意思之外,還有“remember”的意思。
Recall:the ability to remember sth. that you have learned or sth. that has happened in the past.
當我們問檢索系統某一件事的所有細節時(輸入檢索query查詢詞),Recall指:檢索系統能“回憶”起那些事的多少細節,通俗來講就是“回憶的能力”。“能回憶起來的細節數” 除以 “系統知道這件事的所有細節”,就是“記憶率”,也就是recall——召回率。簡單的,也可以理解為查全率。
B:檢索到的,但是不相關的 (搜到的但沒用的)
C:未檢索到的,但卻是相關的 (沒搜到,然而實際上想要的)
D:未檢索到的,也不相關的 (沒搜到也沒用的)
如果我們希望:被檢索到的內容越多越好,這是追求“查全率”,即A/(A+C),越大越好。
如果我們希望:檢索到的文檔中,真正想要的、也就是相關的越多越好,不相關的越少越好,這是追求“准確率”,即A/(A+B),越大越好。
“召回率”與“准確率”雖然沒有必然的關系(從上面公式中可以看到),在實際應用中,是相互制約的。要根據實際需求,找到一個平衡點。
往往難以迅速反應的是“召回率”。我想這與字面意思也有關系,從“召回”的字面意思不能直接看到其意義。“召回”在中文的意思是:把xx調回來。“召回率”對應的英文“recall”,recall除了有上面說到的“order sth to return”的意思之外,還有“remember”的意思。
Recall:the ability to remember sth. that you have learned or sth. that has happened in the past.
當我們問檢索系統某一件事的所有細節時(輸入檢索query查詢詞),Recall指:檢索系統能“回憶”起那些事的多少細節,通俗來講就是“回憶的能力”。“能回憶起來的細節數” 除以 “系統知道這件事的所有細節”,就是“記憶率”,也就是recall——召回率。簡單的,也可以理解為查全率。