【機器學習】邏輯回歸(logistics regression)


一、邏輯回歸的概念

邏輯回歸又稱logistic歸分析,是一種廣義的線性回歸分析模型,常用於數據挖掘,經濟預測等領域。邏輯回歸從本質來說屬於二分類問題,是基於Sigmoid函數(又叫“S型函數”)的有監督二類分類模型。

 

二、Sigmoid函數

Sigmoid函數公式為:

 

 

 

 

其導數形式為:(注意,導數形式在后期會被用到)

 

 

 

 

 

 

 

 

 

 

 

Sigmoid函數其圖像如下所示,其取值范圍被壓縮到0到1之間。

我們知道有監督分類問題需要有帶類別標記的訓練樣本,中的 就對應訓練集中某個樣本的信息。 而樣本信息通常用一系列特征的線性組合來表示,即

 

 

 其中  表示 n 個特征,是每個特征的權重,代表對應特征的重要程度,是偏移,上式通常被寫成向量形式:   ( 對應的等於1)。那么Sigmoid函數就可以相應地寫為如下的形式:

假設我們知道了某個樣本對應的特征取值和權重參數,那么只要將其帶入上式即可得到一個0到1之間的數,通常認為則屬於正類別,反之屬於負類別,即這個數其實反映了該樣本屬於正類別的概率。現在的問題是,我們手上有了訓練集,即樣本的都是已知的,而模型參數是未知的。我們需要通過訓練集來確定未知的值。一旦被確定,每當面臨新樣本時,我們就可以將其對應的扔到中,根據結果是否大於0.5,輕松加愉快地得出新樣本的類別了。

 

三、邏輯回歸為什么要用sigmoid函數而不是用其他呢?

首先需要了解幾個知識點:A.指數族分布    B.廣義線性模型

A.指數族分布

指數族分布下面的公式,即:

 其中,η為自然參數,T(y)為充分統計量,通常T(y)=y,α(η)為正則化項。

B.廣義線性模型

滿足下面三個假設的模型成為廣義線性模型:

滿足一個以η為參數的指數族分布

②給定x,我們目標是預測y的期望值,即

 

因為邏輯回歸假設數據服從伯努利分布,我們用一個簡單例子來介紹伯努利分布:拋硬幣,一枚硬幣拋中正面的概率為p,那么反面的概率則為1-p。

伯努利分布的概率質量函數(PMF)為:

 分段函數比較簡單易懂,但是對於后面的推導比較麻煩,於是有:

對上式進行log操作:

其中,令

所以可以得出伯努利分布屬於指數族分布。

即伯努利分布滿足廣義線性模型的第一個假設,下面利用廣義線性模型后面兩個假設得到:

 

四、目標函數

 假設訓練集中有 m 個樣本,每個樣本屬於正類別的概率為 ,屬於負類別的概率就是 ,在訓練過程中,我們應該盡可能地使整個訓練集的分類結果與這 m 個樣本的類別標記盡可能地一致。換句話說,我們要使訓練樣本集分類正確的似然函數最大(每個樣本相互獨立),而我們可以很容易地寫出如下的似然函數:

其中是訓練集中第 i 個樣本已經被標記好的類別,若為1.則上式的前半部分起作用,反之后半部分起作用。由於對 整體求 ,其極值點保持不變,因此可以簡化為:

接下來的任務是求相應  的值,使得取最大值。如果對整體取負號即為Logistic回歸的損失函數(loss function),相應地,應該求使取最小值的 

 

五、求解過程與正則化

一般采用梯度下降法對進行求解,這里不再細說。

在實際應用中,為了防止過擬合,使得模型具有較強的泛化能力,往往還需要在目標函數中加入正則項。在邏輯回歸的實際應用中,L1正則應用較為廣泛,原因是在面臨諸如廣告系統等實際應用的場景,特征的維度往往達到百萬級甚至上億,而L1正則會產生稀疏模型,在避免過擬合的同時起到了特征選擇的作用。

 

六、總結

優點:

簡單易於實現。

邏輯回歸可以輸出一個[0,1]之間的浮點數,也就是不僅可以產生分類的類別,同時產生屬於該類別的概率。

邏輯回歸是連續可導的,易於最優化求解。

缺點:

容易過擬合

原始的邏輯回歸只能處理兩分類問題,且必須線性可分。

 

七、拓展

為什么邏輯回歸使用交叉熵損失函數而不用均方誤差?參考https://blog.csdn.net/dpengwang/article/details/96597606


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM