本文轉載自查看原文 2021-01-21 23:49 361

?p=19018

之前我們討論了使用ROC曲線來描述分類器的優勢，有人說它描述了“隨機猜測類別的策略”，讓我們回到ROC曲線來說明。考慮一個非常簡單的數據集，其中包含10個觀測值（不可線性分離）

在這里我們可以檢查一下，確實是不可分離的

plot(x1,x2,col=c("red","blue")[1+y],pch=19)

考慮邏輯回歸

reg = glm(y~x1+x2,data=df,family=binomial(link = "logit"))

我們可以使用我們自己的roc函數

或R包

performance(prediction(S,Y),"tpr","fpr")

我們可以在這里同時繪制兩個

因此，我們的代碼在這里可以正常工作。讓我們考慮一下對角線。第一個是：每個人都有相同的概率（例如50％）

但是，我們這里只有兩點：（0,0）和（1,1）。實際上，無論我們選擇何種概率，都是這種情況

我們可以嘗試另一種策略，例如“通過扔無偏硬幣進行預測”。我們得到

我們還可以嘗試“隨機分類器”，在其中我們隨機選擇分數

更進一步。我們考慮另一個函數來繪制ROC曲線

但是現在考慮隨機選擇的策略

紅線是所有隨機分類器的平均值。它不是一條直線，我們觀察到它在對角線周圍的波動。

這是一個“隨機分類器”，我們在單位區間上隨機繪制分數

如果我們重復500次，我們可以獲得

因此，當我在單位區間上隨機繪制分數時，就會得到對角線的結果。給定Y，我們可以繪制分數的兩個經驗累積分布函數

我們還可以使用直方圖（或密度估計值）查看分數的分布

我們確實有一個“完美的分類器”（曲線靠近左上角）

有錯誤。那應該是下面的情況

在10％的情況下，我們可能會分類錯誤

更多的錯誤分類

最終我們有對角線

最受歡迎的見解

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。