NLP學習筆記10---邏輯回歸(logistic regression)、梯度下降法(Gradient Descent)、模型復雜度和過擬合、正則、五折交叉驗證


1.邏輯回歸的經典應用

 

Logistic回歸為概率型非線性回歸模型,是研究二分類觀察結果與一些影響因素之間關系的一種多變量分析方法。通常的問題是,研究某些因素條件下某個結果是否發生,比如醫學中根據病人的一些症狀來判斷它是否患有某種病。

 

 

典型案例:

判斷貸款人是否會出現違約現象

從上圖可知,邏輯回歸多用於二分類問題

2.邏輯回歸的目標函數

(1)邏輯函數

(2)邏輯回歸的目標函數

MLE最大似然估計

argmax這個符號表示求解使得p(y/x)乘積最大的w,b

對上面的目標函數進行優化:

 

進一步優化:

邏輯回歸的目標函數是一個凸函數。

(3)梯度下降法(Gradient Descent)

 

上圖中,η代表步長,▽f(wt)表示f(wt)的偏導數

利用梯度下降法求解邏輯回歸的目標函數的最優解:

對w求導:

 

對b求導:

(4)梯度下降法(針對所有樣本)和隨機梯度下降(利用一個樣本)

3.模型復雜度和過擬合

(1)模型復雜度

 

(2)L0-norm、L1-norm、L2-norm 正則(避免w很大)

L1-norm(L1正則)和L2-norm(L2正則)的區別:

L1正則和L2正則都能使得參數θ更小,但L1正則可以解決稀疏問題。

4.交叉驗證

邏輯回歸的目標函數加上正則項后:

五折交叉驗證案例:

 

小結:


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM