測試數據集
- 一個文檔集
- 一組用於測試的信息需求集合,信息需求可以表示為查詢
- 一組相關性判定結果,對應每個查詢-文檔,通常會賦予一個二值判定結果: 相關/不相關
經驗發現一般測試的查詢數應>=50。
無序檢索結果的評價
准確率和召回率
對於一個查詢,根據其返回結果可以將整個文檔集划分為4部分:
相關 | 不相關 | |
返回 | 真正例(tp) | 偽正例(fp) |
不返回 | 偽反例(fn) | 真反例(tn) |
定義:
准確率:P=tp/(tp+fp)
召回率:R=tp/(tp+fn)
准確率用來度量返回結果中是否帶有不相關的結果。
召回率用來度量返回結果是否包含了所有相關文檔。
F值
召回率和准確率很多時候是相互制衡的,返回的文檔越多,一般召回率越高,但准確率隨之下降。因此可以取召回率和准確率的調和平均值作為綜合評價:
其中:
當beta取1時,召回率和准確率所占權重一致,公式簡化為:
這里之所以取調和平均數而不是算數平均數或幾何平均數是因為當兩個求平均的數之間差距比較大的時候,相對於算數平均數和幾何平均數,調和平均數更接近於較小的值,對於召回率和准確率來說這是合理的。
有序檢索結果的評價
Map方法(mean average precision,平均正確率均值)
在結果有序的情況下,也可以沿用無序評價的正確率和召回率概念,方法是將搜索結果看成是前k個(k=1,2,...)搜索結果組成的若干子集,這樣對每個子集都能計算正確率和召回率,然后可以將若干子集的評價取平均值。
假設搜索返回的結果文檔集合為{d1,d2,d3...dm},則使用Map方法計算有序結果評價為:
P@k(precision at k)
上面提到的Map指標實際上是在所有召回率水平上計算准確率。對於Web搜索等應用來說,一般只關注第一頁或前3頁的結果,也就是說只關注前k個返回結果的准確率,P@k指只計算前k個返回結果的准確率。
R准確率
P@k指標有一個問題,比如將k指定為10,那么對於部分查詢其相關文檔數量可能<10,此時盡管查詢返回了所有相關文檔,但如果用10作為計算基底,仍然導致查詢獲得較低的准確率。
解決方法是將固定值k換成相關文檔數R,R根據查詢的不同而改變。這樣求得的准確率稱為R准確率。
根據召回率的定義可以得知,R准確率=查詢結果的召回率。
R准確率和P@k准確率相比Map而言,實際上只是求了某一個召回率對應的准確率,盡管如此,但是在經驗上卻證實了R准確率和Map高度相關。
相關性判定
對於搜索結果的相關性,往往需要人工來判定,但是人工判定會存在一致性問題(同一個搜索結果,有的人認為相關,有的人認為不相關)。在社會科學中,一個常用的度量一致性的指標是kappa統計量:
kappa:
P(A)是觀察到的一致性比率。P(E)是隨機情況下的一致性比率。
kappa值>0說明人工判斷的一致性>隨機一致性,kappa=0說明和隨機一致性相等,kappa<0說明還不如隨機一致性。
一般來說kappa值>0.8說明具有很好的一致性:若取值在0.67~0.8之間,說明有較好的一致性,如果取值<0.67,說明結果值得懷疑。