分類預測算法評價(初識)


分類於預測算法評價

  • 分類與預測模型對訓練集進行預測而得出得准確率並不能很好得反映預測模型未來得性能,為了有效判斷一個預測模型得性能表現,需要一組沒有參與預測模型建立得數據集並在該數據集上評價預測模型得准確率,這組獨立耳朵數據集叫做測試集,模型預測效果評價,通常用相對絕對誤差,平均絕對誤差,均方誤差,均方根誤差來衡量.
    1. 絕對誤差與相對誤差
      • 設Y表示實際值, Ý表示預測值, 則稱E為絕對誤差,計算公式如下:
        • Ε = Y - Ý
      • e為相對誤差, 計算公式如下
        • e = (Y - Ý) / Y
      • 有時也可以用誤差百分數來表示
        • e = (Y - Ý) / Y * 100%
      • 這是一種直觀得誤差表示方法
    2. 平均絕對誤差
      • 平均絕對誤差定義如下:
        • MAE = 1/n ∑nn=1i| = 1/n ∑i=1n | Υi - Ýi|
        • 公式中含義如下:
        • MAE : 平均絕對誤差
        • Ei : 第i個實際值與預測值得絕對誤差
        • Yi : 第i各實際值
        • Ýi : 第i各預測值
      • 由於預測誤差有正有負,為了避免正負向抵消,故取誤差絕對值進行綜合並取其平均數,這是誤差分析得綜合指標法之一
    3. 均方誤差
      • 均方誤差定義如下:
        • MSE = 1/n∑ni=1Ε2i = 1/n∑nn=1i - Ýi)2
      • 上式中,MSE表示均方差,其他符號同前, 本方法用於還原平方失真程度
      • 均方誤差是預測誤差平方之和得平均數, 它避免了正負誤差不能相加得問題,由於對誤差E進行了平方,加強了數值大得誤差在指標中得作用,從而提高了這個指標得靈敏度,十一大優點,均方誤差是誤差分析得綜合指標法之一.
    4. 均方根誤差
      • 均方根誤差定義如下:
        • RMSE = (1/n∑ni=1Ε2i)1/2 = (1/n∑ni=1i - Ýi)2)1/2
        • 上式中, RMSE表示均方根誤差, 其他符號同前,這是均方誤差得平方根,代表了預測值得離散程度, 也稱為標准誤差,最佳擬合情況為RMSE = 0.均方根誤差也是誤差分析得綜合指標之一
    5. 平均絕對百分誤差
      • 品駿絕對誤差定義如下:
        • MAPE = 1/n∑ni=1 | Εi / Υi |  = 1/n ∑nn=1 | (Υi - Ýi) / Υi |
      • 上式中, MAPE表示平均絕對百分誤差,一般認為認為MAPE小於10時, 預測精度較高
    6. Kappa統計
      • Kappa統計式比較兩個或多個觀測者對同一事物,或觀測者對同一事物的兩次或多次觀測結果是否一致, 以由於機遇造成的一致性和實際觀測的一致性之間的差別大小作為評價基礎的統計指標, Kappa統計量和加權Kappa統計量不僅可以用於無序和有序分類變量資料的一致性, 重現性檢驗, 而且能給出一個反映一致大小的"量"值.
      • Kappa取值在[-1, 1]之間, 其值的大小均有不同意義
        • Kappa = +1 說明兩次判斷結果完全一致
        • Kappa = -1 說明兩次判斷的結果完全不一致
        • Kappa = 0 說明兩次判斷的結果式基於造成
        • Kappa < 0 說明一致程度比機遇造成的還差, 兩次檢查結果很不一致, 在實際應用中無意義
        • Kappa > 0 說明有意義, Kappa越大, 說明一致性很好
        • Kappa >= 0.75 說明已經取得相當滿意的一致程度
        • Kappa < 0.4 說明一致程度不夠
      • 識別准確度
    7. 識別准確度定義如下:
      • Accuracy = (TP + FN) / (TP + TN + FP + FN) * 100%
      • TP (True Positives): 正確的肯定表示正確肯定的分類數.
      • TN (True Negatives): 正確的否定表示正確否定的分類數.
      • FP (False Positives): 錯誤的肯定表示錯誤肯定的分類數.
      • FN (False Negatives): 錯誤的否定表示錯誤否定的分類數 .
    8. 識別精准率
      • 是唄精准率如下:
        • Precision = TP / (TP + FP) * 100%
    9. 反饋率:
      • 反饋率定義如下
        • ec  all = TP / (TP + FP) * 100%
    10. ROC曲線
      • 受試者工作特性曲線是一種非常有效的模型評價方式,可為選定臨界值給出定量提示.將靈敏度,設在縱軸, 1-特異性,設在橫軸, 就可以得出ROC曲線圖,該曲線下的積分面積大小,與每種方法優劣密切相關,反映分類器正確的統計概率,其值越接近1說明該宣發效果越好.
    11. 混淆矩陣
      • 混淆矩陣式模式識別領域中一種常用的表達形式,它描繪樣本數據的真實屬性與識別結果類型證件的關系,式評價分類器性能的一種常用方法,假設對於N類模式的分類任務,識別數據集D包括T0個樣本,每類模式分別含有Ti個數據(i=1,...,N).采用某種識別計算法構造分類器C,cmij表示第i類模式被分類器C判斷成第j類模式的數據占第i類模式樣本總數的百分率,則可疑得到NxN維混淆矩陣.
      • CM(CD) = 

        cm11 cm12 ... cm1i ... cm1n
        cm21 cm22 ... cm2i ... cm2n

        cmi1 cmi2 ... cmii ... cmin

        cmn1 cmn2 ... cmni ... cmnn

      • 混淆矩陣中元素的行下標對應目標的真實屬性,列下標對應分類器產生的識別屬性,對角線元素表示各模式能夠被分類器C正確識別的百分率,而非對角線元素則表示發生錯誤判斷的百分率
      • 通過混淆矩陣,剋獲得分類器的正確識別率和錯誤識別率
      • 各模式正確識別率:
        • Ri = cmii, i = 1,...,N
      • 平均正確識別率:
        • Ra = ∑(cmii • Τi) / Τ0
      • 各模式錯誤識別率:
        • Wi = ∑nj=1,j≠i cmij = 1 - cmij = 1 - Ri
      • 平均錯誤識別率:
        • Wa = ∑ni=1nj=1,j≠i(cmij • Ti)/T0 = 1 - Ra
      • 對於一個二分類預測模型, 分類結束后的混淆矩陣如下:
      • 混淆矩陣 預測類
        類 = 1 類= 0
        實際類 類 = 1 A B
        類 = 0 C D
      • 如有150個樣本數據,這些數據分成3類,每類50個,分類結束后得到的混淆矩陣如下:
      • 43
        5
        2
        0 1 49
        2 45

        3

      • 第一行的數據說明有43個樣本正確分類,有5個樣本應該屬於第一類,卻錯誤分到了第二類,有2個樣本應該屬於第一類,卻錯誤的分到第三類.


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM