邏輯回歸返回的是概率。您可以“原樣”使用返回的概率(例如,用戶點擊此廣告的概率為 0.00023),也可以將返回的概率轉換成二元值(例如,這封電子郵件是垃圾郵件)。
如果某個邏輯回歸模型對某封電子郵件進行預測時返回的概率為 0.9995,則表示該模型預測這封郵件非常可能是垃圾郵件。相反,在同一個邏輯回歸模型中預測分數為 0.0003 的另一封電子郵件很可能不是垃圾郵件。可如果某封電子郵件的預測分數為 0.6 呢?為了將邏輯回歸值映射到二元類別,您必須指定分類閾值(也稱為判定閾值)。如果值高於該閾值,則表示“垃圾郵件”;如果值低於該閾值,則表示“非垃圾郵件”。人們往往會認為分類閾值應始終為 0.5,但閾值取決於具體問題,因此您必須對其進行調整。
我們將在后面的部分中詳細介紹可用於對分類模型的預測進行評估的指標,以及更改分類閾值對這些預測的影響。
注意:
“調整”邏輯回歸的閾值不同於調整學習速率等超參數。在選擇閾值時,需要評估您將因犯錯而承擔多大的后果。例如,將非垃圾郵件誤標記為垃圾郵件會非常糟糕。不過,雖然將垃圾郵件誤標記為非垃圾郵件會令人不快,但應該不會讓您丟掉工作。