原文見 http://blog.csdn.net/acdreamers/article/details/27365941
Logistic回歸為概率型非線性回歸模型,是研究二分類觀察結果
與一些影響因素
之間關系的一種多
變量分析方法。通常的問題是,研究某些因素條件下某個結果是否發生,比如醫學中根據病人的一些症狀來判斷它是
否患有某種病。
在講解Logistic回歸理論之前,我們先從LR分類器說起。LR分類器,即Logistic Regression Classifier。
在分類情形下,經過學習后的LR分類器是一組權值
,當測試樣本的數據輸入時,這組權值與測試數據按
照線性加和得到

這里
是每個樣本的
個特征。
之后按照sigmoid函數的形式求出

由於sigmoid函數的定義域為
,值域為
,因此最基本的LR分類器適合對兩類目標進行分類。
所以Logistic回歸最關鍵的問題就是研究如何求得
這組權值。這個問題是用極大似然估計來做的。
下面正式地來講Logistic回歸模型。
考慮具有
個獨立變量的向量
,設條件慨率
為根據觀測量相對於某事件
發生的
概率。那么Logistic回歸模型可以表示為

這里
稱為Logistic函數。其中
那么在
條件下
不發生的概率為

所以事件發生與不發生的概率之比為

這個比值稱為事件的發生比(the odds of experiencing an event),簡記為odds。
對odds取對數得到

可以看出Logistic回歸都是圍繞一個Logistic函數來展開的。接下來就講如何用極大似然估計求分類器的參數。
假設有
個觀測樣本,觀測值分別為
,設
為給定條件下得到
的概率,同樣地,
的概率為
,所以得到一個觀測值的概率為
。
因為各個觀測樣本之間相互獨立,那么它們的聯合分布為各邊緣分布的乘積。得到似然函數為

然后我們的目標是求出使這一似然函數的值最大的參數估計,最大似然估計就是求出參數
,使得
取得最大值,對函數
取對數得到

繼續對這
個
分別求偏導,得到
個方程,比如現在對參數
求偏導,由於

所以得到

這樣的方程一共有
個,所以現在的問題轉化為解這
個方程形成的方程組。
上述方程比較復雜,一般方法似乎不能解之,所以我們引用了牛頓-拉菲森迭代方法求解。
利用牛頓迭代求多元函數的最值問題以后再講。。。
簡單牛頓迭代法:http://zh.m.wikipedia.org/wiki/%E7%89%9B%E9%A1%BF%E6%B3%95
實際上在上述似然函數求最大值時,可以用梯度上升算法,一直迭代下去。梯度上升算法和牛頓迭代相比,收斂速度
慢,因為梯度上升算法是一階收斂,而牛頓迭代屬於二階收斂。
來源:http://blog.csdn.net/ariessurfer/article/details/41310525
二、常見其它講LR
