Logistic 回歸模型的參數估計為什么不能采用最小二乘法？

本文轉載自查看原文 2021-04-14 15:18 329

　　logistic回歸模型的參數估計問題，是可以用最小二乘方法的思想進行求解的，但和經典的（或者說用在經典線性回歸的參數估計問題）最小二乘法不同，是用的是“迭代重加權最小二乘法”（IRLS, Iteratively Reweighted Least Squares）。本質上不能使用經典的最小二乘法的原因在於，logistic回歸模型的參數估計問題不能“方便地”定義“誤差”或者“殘差”。

下面是對經典線性回歸問題和logistic回歸問題的一些討論。

（1）最小二乘/最小二乘法、最小二乘估計和極大似然估計的區別

　　最小二乘/最小二乘法可以看成是一種朴素的思想，即如果某種差異可以量化為實數，那么我們就可以（自然地）把這些差異的平方相加，將這個和作為一種目標函數。我記得我們高代有節課專門講過“二乘”的矩陣形式，以及相關的“最小”這一優化目標的矩陣運算等等。

　　最二乘估計是指用最小二乘法對統計模型中的參數進行估計的估計方法。除了最小二乘估計，還有常用的極大似然估計、矩估計等參數估計的方法。

　　對經典線性回歸模型的參數估計來說，最小二乘估計和極大似然估計的結果是等價的，換句話說，對於其他模型，這種等價性就可能不成立。

　　對於logistic回歸模型來說，極大似然估計是沒有解析解（closed form solution）的。最小二乘估計和極大似然估計的不同在於優化的目標函數不同。最小二乘估計因為是用的最小二乘法，目標函數就是前面提到的那種“自然地”對“誤差”或者“殘差”的處理方式（這里“誤差”和“殘差”之所以加引號，是因為我們為了理解方便賦予了操作對象“某種差異”實際的意義）；

　　極大似然估計的目標函數是似然函數。可見，前者的目標函數依賴於我們對“誤差”的選取，而后者依賴於數據的具體概率分布。最小二乘估計有很多良好的性質，這些性質是不依賴於具體概率分布的，僅需要滿足Gauss-Markov假設即可。

（2）經典線性回歸模型和logistic回歸模型的區別

經典線性回歸模型常用的形式是

$y=\textbf{X}\beta+\epsilon$ （*），

其中 $\epsilon$ 服從0均值 $\sigma^2$ 的正態分布（或者更一般的，服從Gauss-Markov假設：0均值、等方差、不相關，即不一定是正態的）；

logistic回歸模型常用的形式是

$\rm{Pr}(Y=y)=\pi^y(1-\pi)^{1-y}$ , $\rm {logit}(\pi)=\textbf{X}\beta$ （**）

如果只看這兩種表示方式，可能會覺得這兩個模型差別很大，比如說，logistic模型（**）怎么沒有誤差項呢？ $y$ 在（*）里面是服從有2個參數的正態分布 $N(\mu,\sigma^2)$ ，在（**）里面是服從1個參數的伯努利分布 $Bernoulli (p)$ ，為什么 $\textbf{X}\beta$ 在（**）中模擬了全部的未知參數，而在（*）中只模擬了一個參數 $\mu$ 。

實際上，logistic模型可以看成是 $\textbf{X}\beta$ 加上一個logistic 誤差項，即

$y=1,\textbf{X}\beta+\epsilon>0$ $y=0, \textbf{X}\beta+\epsilon \leq0$

其中 $\epsilon$ 服從標准的logistic分布。這樣，logistic模型就有一個潛變量的表達形式：

$z=\textbf{X}\beta+\epsilon$ , $y=f(z)$

這里的潛變量連接函數 $f()$ 具體說就是大於零取1，其他情況取0。這樣來說，（*）和（**）都可以寫成有誤差項的表示。

另一方面，從條件期望的表示來看，

模型（*）可以寫成： $\mathbb{E} (Y=y | \textbf{X})=\mu$ , $\textbf{X}\beta=g(\mu)=\mu$

模型（**）可以寫成： $\mathbb{E} (Y=y | \textbf{X})=\pi$ , $\textbf{X}\beta=h(\pi)=\rm{logit}(\pi)=\log(\frac{\pi}{1-\pi})$

可見兩個模型分別靠一個函數 $g,h$ 將 $\textbf{X}\beta$ 和參數相連接，只是 $g$ 具體來說是identity函數， $h$

是logit函數。這類模型都可以統一到廣義線性回歸模型GLM里面。

最后再點一下題，經典的最小二乘法可以處理比較方便寫出“殘差”的模型的參數估計，比如（*）中的“殘差”是連續的實數，因為 $\textbf{X}\beta$ 是模擬的“均值”；而在（**）中的“殘差”是離散的0和1，因為 $\textbf{X}\beta$ 模擬的是產生這些0和1的“概率”。但是如果換成極大似然估計，這些差異都可以統一起來，用極大化似然函數的方法進行求解。

轉自：鏈接：https://www.zhihu.com/question/23817253/answer/85998617

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 極大似然估計和最小二乘法從最大似然估計到最小二乘法遞推最小二乘參數估計RLS 線性回歸——最小二乘法_實例（一）線性回歸：最小二乘法實現線性回歸(最小二乘法) 線性回歸之最小二乘法線性回歸——最小二乘法（二）線性回歸——最小二乘法（一）最小二乘法模型的推導原理