[西瓜書習題] 第二章 模型評估與選擇


2.1 數據集包含1000個樣本,其中500個正例,500個反例,將其划分為包含70%樣本的訓練集和30%樣本的測試集用於留出法評估,試估算共有多少種划分方式。

留出法將數據集划分為兩個互斥的集合,為了保持數據的一致性,應該保證兩個集合中的類別比例相同。故可以用分層采樣的方法。

所以訓練集包含350個正例與350個反例,測試集包含150個正例與150個反例。

排列組合為

2.2 數據集包含100個樣本,其中正反例各一半,假定學習算法所產生的模型是將新樣本預測為訓練樣本數較多的類別(訓練樣本數相同時進行隨機猜測),試給出用10折交叉驗證法和留一法分別對錯誤率進行評估所得的結果。

10折交叉檢驗:由於每次訓練樣本中正反例數目一樣,所以講結果判斷為正反例的概率也是一樣的,所以錯誤率的期望50%。

留一法:如果留下的是正例,訓練樣本中反例的數目比正例多一個,所以留出的樣本會被判斷是反例;同理,留出的是反例,則會被判斷成正例,所以錯誤率100%。

2.3 若學習器A的F1值比學習器B高,試析A的BEP值是否也比B高。

查准率 P = TP / (TP + FP) 查全率 R = TP / (TP + FN)

BEP:平衡點,Break-Event Point,是“查准率 = 查全率”時P-R曲線上的的取值。

F1度量:F1 = 2 * P * R / (P + R) = 2 * TP / (樣例總數 + TP - TN) 是基於查准率和查全率的調和平均。

回答1:

分類器將所有訓練樣本按自己認為是正例的概率排序,排在越前面分類器更可能將它判斷為正例。按順序逐個把樣本標記為正,當查准率與查全率相等時,BEP=查准率=查全率。當然分類器的真實輸出是在這個序列中的選擇一個位置,前面的標記為正,后面的標記為負,這時的查准率與查全率用來計算F1值。可以看出有同樣的BEP值的兩個分類器在不同位置截斷可能有不同的F1值,所以F1值高不一定BEP值也高。
比如:

1/+ 2/+ 3/+ 4/+ 5/+ 6/- 7/- 8/- 9/- 10/-
1/+ 2/+ 3/+ 4/+ 6/- 5/- 7/- 8/- 9/- 10/-
1/+ 2/+ 3/+ 4/+ 6/+ 5/- 7/- 8/- 9/- 10/-

第一行是真實的測試樣本編號與分類,第二三行是兩個分類器對所有樣本按為正例可能性的排序,以及判斷的結果。顯然兩個分類器有相同的BEP值,但是他們的F1值一個是0.89,一個是0.8。

回答2:

不等式證明,成立。

回答3:

F1是查准率與查全率的調和平均,而BEP僅僅是 查准率=查全率 時的一個取值,具有特殊性。所以F1比BEP更能描述性能優劣。

當滿足特殊性時,不一定滿足全局性能,當BEP相等時,F1僅在相等點處也相等,但通過后一個公式計算不然。

2.4 試述真正例率(TPR)、假正例率(FPR)與查准率(P)、查全率(R)之間的聯系。

查全率: 真實正例被預測為正例的比例
真正例率: 真實正例被預測為正例的比例
顯然查全率與真正例率是相等的。

查准率:預測為正例的實例中真實正例的比例
假正例率: 真實反例被預測為正例的比例
兩者並沒有直接的數值關系。

2.5 試證明式(2.22)。

與BEP一樣,學習器先將所有測試樣本按預測概率排序,越可能是正的排在越前面。然后依次遍歷,每掃描到一個位置,里面如果只有正例,則ROC曲線垂直向上,如果只有反例,曲線水平往右,如果既有正例也有反例,則斜向上。

公式2.21累加了所有不在正例的反例數目,其中同樣的位置標記為0.5,在正例前面標記為1。從圖中可以看出,折線每次向右(右上)延伸,表示掃描到了反例,折線上方對應的面積,就是該反例后面有多少個正例,每個正例是一個正方形,對應的面積是1。同位置上的正例是個三角形,對應的面積是0.5。計算出總面積后,由於ROC圖的坐標是歸一化的,所以總面積要除以一開始放大的倍數,也就是m+m−。

2.6 試述錯誤率與ROC曲線之間的關系。

ROC曲線每個點對應了一個TPR與FPR,此時對應了一個錯誤率。

2.7 試證明任意一條ROC曲線都有一條代價曲線與之對應,反之亦然。

ROC曲線上每一點(FPR,TPR)對應了代價平面上的一條線段。FNR = 1 - TPR,即可在代價平面上繪制一條從(0,FPR)到(1,FNR)的線段,線段下的面積即表示該條件下的期望總體代價。

2.8 Min-Max規范化與z-score規范化如下所示。試析二者的優缺點。P48

Min−max規范化方法簡單,而且保證規范化后所有元素都是正的,每當有新的元素進來,只有在該元素大於最大值或者小於最小值時才要重新計算全部元素。但是若存在一個極大(小)的元素,會導致其他元素變的非常小(大)。

z−score標准化對個別極端元素不敏感,且把所有元素分布在0的周圍,一般情況下元素越多,0周圍區間會分布大部分的元素,每當有新的元素進來,都要重新計算方差與均值。

2.9 試述卡方檢驗過程。

卡方檢驗原理及應用

http://guoze.me/2015/09/07/chi-square/

2.10 試述在使用Friedman檢驗中使用式(2.34)與(2.35)的區別。

原始Friedman檢驗要求k較大時,平均序值ri近似於正態分布,均值(k+1)/2,方差(k^2-1)/12。

即:

所以

統計量由於k個模型的平均序值ri是有關聯的,知道k-1個就能推導出最后一個,所以自由度為k-1,所以前面要乘上(k-1)/k,得到:

猜測:由於Friedman統計量只考慮了不同算法間的影響,而沒去考慮不同數據集(其他方差)所帶來的影響,所以書上說這個Friedman統計量太保守。 (k較大才行,比如k>30)

所以對序值表做方差分析:

總方差,自由度 N∗(k−1)

算法間方差,自由度 k−1

其他方差 SSE = SST − SSA 自由度 (N−1)∗(k−1)

做統計量,f服從(k−1)和(N−1)∗(k−1)的F分布


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM