在linear model中,我們對各個特征線性組合,得到linear score,然后確定一個threshold,linear score < threshold 判為負類,linear score > threshold 判為正類。畫PR曲線時, 我們可以想象threshold 是不斷變化的。首先,threshold 特別大,這樣木有一個是正類,我們計算出查全率與查准率; 然后 threshold 減小, 只有一個正類,我們計算出查全率與查准率;然后 threshold再減小,有2個正類,我們計算出查全率與查准率;threshold減小一次,多出一個正類,直到所有的類別都被判為正類。 然后以查全率為橫坐標,差准率為縱坐標,畫出圖形即可。
例如,有
| 實際類別 | linear score | threshold 為6 | threshold 為5 | threshold 為4 | threshold 為3 | threshold 為2 | threshold 為1 | |
| + | 5.2 | - | + | + | + | + | + | |
| + | 4.45 | - | - | + | + | + | + | |
| - | 3.5 | - | - | - | + | + | + | |
| - | 2.45 | - | - | - | - | + | + | |
| - | 1.65 | - | - | - | - | - | + | |
| 0/0 | 1 / 1 | 2 / 2 | 2 / 3 | 2 / 4 | 2 / 5 | 查准率 | ||
| 0/2 | 1 / 2 | 2 / 2 | 2/ 2 | 2 / 2 | 2/ 2 | 差全率 | ||
| 0/2 | 1/2 | 2/2 | 2/2 | 2/2 | 2/2 | TPR | ||
| 0/3 | 0/3 | 1/3 | 2/3 | 3/3 | FPR |

行是實際的類,列是分類器得到的類別。常用的術語如下:
真陽性(TP)——正確的肯定
真陰性(TN)——正確的否定
假陽性(FP)——錯誤的肯定,假報警,第一類錯誤
假陰性(FN)——錯誤的否定,未命中,第二類錯誤
查全率: 預測為正的里面,實際為正的比例。
查准率:預測為正,實際為正 占的比例。
真正例率(TPR) = 查全率
TPR = TP / P = TP / (TP+FN)
假正例率(FPR)
FPR = FP / N = FP / (FP + TN)
PR
1 import matplotlib 2 import numpy as np 3 import matplotlib.pyplot as plt 4 Recall = np.array([0,1/2,2/2,2/2,2/2,2/2]) 5 Precison = np.array([1/1,2/2,2/3,2/4,2/5,0])
Precison = np.array([0,1/1,2/2,2/3,2/4,2/5])
6 plt.figure() 7 plt.ylim(0,1.1) 8 plt.xlabel("Recall") 9 plt.xlim(0,1.1) 10 plt.ylabel("Precison") 11 plt.plot(Recall,Precison) 12 plt.show()

ROC與PR類似,只是橫坐標與縱坐標換成成了FPR與TPR,這樣FPR與TPR計算時,分母不變,畫圖更加方便。
繪圖過程:給定m1 個正例,m2 個負例. linear score 排序。
在坐標(0,0)標一個點,然后改變閾值,多出一個預測正例,
設當前的坐標為(x,y),當前若為真正例,則對應坐標點的坐標為(x,y+1/m1),當前若為假正例,則對應坐標點的坐標為(x+1/m2,y)
1 import matplotlib 2 import numpy as np 3 import matplotlib.pyplot as plt 4 FPR = np.array([0/3,0/3,0/3,1/3,2/3,3/3]) 5 TPR = np.array([0/2,1/2,2/2,2/2,2/2,2/2]) 6 7 plt.figure() 8 plt.ylim(-0.1,1.5) 9 plt.xlabel("FPR") 10 plt.xlim(-0.1,1.5) 11 plt.ylabel("TPR") 12 plt.plot(FPR,TPR) 13 plt.show()

