一、邏輯回歸的概念
邏輯回歸又稱logistic回歸分析,是一種廣義的線性回歸分析模型,常用於數據挖掘,經濟預測等領域。邏輯回歸從本質來說屬於二分類問題,是基於Sigmoid函數(又叫“S型函數”)的有監督二類分類模型。
二、Sigmoid函數
Sigmoid函數公式為:
其導數形式為:(注意,導數形式在后期會被用到)
Sigmoid函數其圖像如下所示,其取值范圍被壓縮到0到1之間。
我們知道有監督分類問題需要有帶類別標記的訓練樣本,中的 z 就對應訓練集中某個樣本的信息。 而樣本信息通常用一系列特征的線性組合來表示,即
其中 表示 n 個特征,
是每個特征的權重,代表對應特征的重要程度,
是偏移,上式通常被寫成向量形式:
(
對應的
等於1)。那么Sigmoid函數就可以相應地寫為如下的形式:
假設我們知道了某個樣本對應的特征取值和權重參數,那么只要將其帶入上式即可得到一個0到1之間的數,通常認為則屬於正類別,反之屬於負類別,即這個數其實反映了該樣本屬於正類別的概率。現在的問題是,我們手上有了訓練集,即樣本的都是已知的,而模型參數是未知的。我們需要通過訓練集來確定未知的值。一旦被確定,每當面臨新樣本時,我們就可以將其對應的
扔到
中,根據結果是否大於0.5,輕松加愉快地得出新樣本的類別了。
三、邏輯回歸為什么要用sigmoid函數而不是用其他呢?
首先需要了解幾個知識點:A.指數族分布 B.廣義線性模型
A.指數族分布
指數族分布下面的公式,即:
其中,η為自然參數,T(y)為充分統計量,通常T(y)=y,α(η)為正則化項。
B.廣義線性模型
滿足下面三個假設的模型成為廣義線性模型:
①滿足一個以η為參數的指數族分布
②給定x,我們目標是預測y的期望值,即
③
因為邏輯回歸假設數據服從伯努利分布,我們用一個簡單例子來介紹伯努利分布:拋硬幣,一枚硬幣拋中正面的概率為p,那么反面的概率則為1-p。
伯努利分布的概率質量函數(PMF)為:
分段函數比較簡單易懂,但是對於后面的推導比較麻煩,於是有:
對上式進行log操作:
其中,令
所以可以得出伯努利分布屬於指數族分布。
即伯努利分布滿足廣義線性模型的第一個假設,下面利用廣義線性模型后面兩個假設得到:
四、目標函數
假設訓練集中有 m 個樣本,每個樣本屬於正類別的概率為 ,屬於負類別的概率就是
,在訓練過程中,我們應該盡可能地使整個訓練集的分類結果與這 m 個樣本的類別標記盡可能地一致。換句話說,我們要使訓練樣本集分類正確的似然函數最大(每個樣本相互獨立),而我們可以很容易地寫出如下的似然函數:
其中是訓練集中第 i 個樣本已經被標記好的類別,若
為1.則上式的前半部分起作用,反之后半部分起作用。由於對
整體求
,其極值點保持不變,因此
可以簡化為:
接下來的任務是求相應 的值,使得
取最大值。如果對
整體取負號即為Logistic回歸的損失函數(loss function),相應地,應該求使
取最小值的
。
五、求解過程與正則化
一般采用梯度下降法對進行求解,這里不再細說。
在實際應用中,為了防止過擬合,使得模型具有較強的泛化能力,往往還需要在目標函數中加入正則項。在邏輯回歸的實際應用中,L1正則應用較為廣泛,原因是在面臨諸如廣告系統等實際應用的場景,特征的維度往往達到百萬級甚至上億,而L1正則會產生稀疏模型,在避免過擬合的同時起到了特征選擇的作用。
六、總結
優點:
簡單易於實現。
邏輯回歸可以輸出一個[0,1]之間的浮點數,也就是不僅可以產生分類的類別,同時產生屬於該類別的概率。
邏輯回歸是連續可導的,易於最優化求解。
缺點:
容易過擬合
原始的邏輯回歸只能處理兩分類問題,且必須線性可分。
七、拓展
為什么邏輯回歸使用交叉熵損失函數而不用均方誤差?參考https://blog.csdn.net/dpengwang/article/details/96597606