Logistic回歸原理及公式推導[轉]


原文見 http://blog.csdn.net/acdreamers/article/details/27365941

 

Logistic回歸為概率型非線性回歸模型,是研究二分類觀察結果與一些影響因素之間關系的一種多

變量分析方法。通常的問題是,研究某些因素條件下某個結果是否發生,比如醫學中根據病人的一些症狀來判斷它是

否患有某種病。

 

在講解Logistic回歸理論之前,我們先從LR分類器說起。LR分類器,即Logistic Regression Classifier。

在分類情形下,經過學習后的LR分類器是一組權值,當測試樣本的數據輸入時,這組權值與測試數據按

照線性加和得到

 

           

 

這里是每個樣本的個特征。

之后按照sigmoid函數的形式求出

 

           

 

由於sigmoid函數的定義域為,值域為,因此最基本的LR分類器適合對兩類目標進行分類。

所以Logistic回歸最關鍵的問題就是研究如何求得這組權值。這個問題是用極大似然估計來做的。

 

 

下面正式地來講Logistic回歸模型。

 

考慮具有個獨立變量的向量,設條件慨率為根據觀測量相對於某事件發生的

概率。那么Logistic回歸模型可以表示為

 

           

這里稱為Logistic函數。其中

 

那么在條件下不發生的概率為

 

           

 

所以事件發生與不發生的概率之比為

 

           

 

這個比值稱為事件的發生比(the odds of experiencing an event),簡記為odds。

 

對odds取對數得到

 

           

 

 

可以看出Logistic回歸都是圍繞一個Logistic函數來展開的。接下來就講如何用極大似然估計求分類器的參數。

 

假設有個觀測樣本,觀測值分別為,設為給定條件下得到的概率,同樣地,

的概率為,所以得到一個觀測值的概率為

 

因為各個觀測樣本之間相互獨立,那么它們的聯合分布為各邊緣分布的乘積。得到似然函數為

 

                                         

 

然后我們的目標是求出使這一似然函數的值最大的參數估計,最大似然估計就是求出參數,使得

取得最大值,對函數取對數得到

 

            

 

繼續對這分別求偏導,得到個方程,比如現在對參數求偏導,由於

 

             

 

所以得到

 

            

 

這樣的方程一共有個,所以現在的問題轉化為解這個方程形成的方程組。

 

上述方程比較復雜,一般方法似乎不能解之,所以我們引用了牛頓-拉菲森迭代方法求解。

 

利用牛頓迭代求多元函數的最值問題以后再講。。。

 

簡單牛頓迭代法:http://zh.m.wikipedia.org/wiki/%E7%89%9B%E9%A1%BF%E6%B3%95

 

實際上在上述似然函數求最大值時,可以用梯度上升算法,一直迭代下去。梯度上升算法和牛頓迭代相比,收斂速度

慢,因為梯度上升算法是一階收斂,而牛頓迭代屬於二階收斂。

 

來源:http://blog.csdn.net/ariessurfer/article/details/41310525

 

二、常見其它講LR

2.1 機器學習-LR推導及與SVM的區別


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM