四、邏輯回歸
邏輯回歸是屬於機器學習里面的監督學習,它是以回歸的思想來解決分類問題的一種非常經典的二分類分類器。由於其訓練后的參數有較強的可解釋性,在諸多領域中,邏輯回歸通常用作baseline
模型,以方便后期更好的挖掘業務相關信息或提升模型性能。
1、邏輯回歸思想
當一看到“回歸”這兩個字,可能會認為邏輯回歸是一種解決回歸問題的算法,然而邏輯回歸是通過回歸的思想來解決二分類問題的算法。
邏輯回歸的基本思想:將樣本所屬正例的概率作為模型的輸出,根據此概率值對樣本的類別進行預測:
解釋說明:邏輯回歸是將樣本特征和樣本所屬類別的概率聯系在一起,假設現在已經訓練好了一個邏輯回歸的模型為 f(x) ,模型的輸出是樣本 x 的標簽是 1 的概率,則該模型可以表示。若得到了樣本 x 屬於標簽 1 的概率后,很自然的就能想到當
時 x 屬於標簽 1 ,否則屬於標簽 0 。所以就有:
(其中 為樣本 x 根據模型預測出的標簽結果,標簽 0 和標簽 1 所代表的含義是根據業務決定的,比如在癌細胞識別中可以使 0 代表良性腫瘤, 1 代表惡性腫瘤)。
由於概率是 0 到 1 的實數,所以邏輯回歸若只需要計算出樣本所屬標簽的概率就是一種回歸算法,若需要計算出樣本所屬標簽,則就是一種二分類算法。
2、概率計算
那么邏輯回歸中樣本所屬標簽的概率怎樣計算呢?
分析:
線性回歸輸出為的值域是(-∞,+∞)
概率的值域是(0,1)
關鍵:找到一個函數σ將線性回歸得到的(-∞,+∞)的實數轉換成(0,1)的概率值。
邏輯回歸中樣本所屬標簽的概率其實和線性回歸有關系,學習了線性回歸的同學肯定知道線性回歸無非就是訓練出一組參數和 b 來擬合樣本數據,線性回歸的輸出為
。不過