廣義線性模型

本文轉載自查看原文 2019-07-07 17:37 1193 algorithms

從線性回歸，logistic回歸，softmax回歸，最大熵的概率解釋來看，我們會發現線性回歸是基於高斯分布+最大似然估計的結果，logistic回歸是伯努利分布+對數最大似然估計的結果，softmax回歸是多項分布+對數最大似然估計的結果，最大熵是基於期望+對數似然估計的結果。前三者可以從廣義線性模型角度來看。

廣義線性模型

廣義線性模型建立在三個定義的基礎上，分別為：
定義線性預測算子

\[η = θ^T x \]

定義y的估計值

\[h(x,θ)=E(y|x,θ) \]

定義 y 的估值概率分布屬於某種指數分布族：

\[Pr(y|x,θ)=b(y) \exp(η^T T(y)−a(η)) \]

接下來詳細解釋各個定義

指數分布家族

指數分布家族是指可以表示為指數形式的概率分布，指數分布的形式如下：

\[p(y;η)=b(y) exp(η^T T(y)−a(η)) \]

其中:

$η$被稱為自然參數(natural parameters)
T(y)稱為充分統計量,通常$T(y) = y $
$a(η)$稱為對數分割函數（log partition function）；
$e^{-a(η)}$本質上是一個歸一化常數，確保$p(y;η)$概率和為1。

當$T(y)$被固定時，$a(η)$、$b(y)$就定義了一個以$η$為參數的一個指數分布。我們變化$η$就得到這個分布的不同分布。
為什么要把$ y $的條件分布定義為這么奇怪的指數分布族？這是因為，在這樣的定義下，我們可以證明： $p(y|η)$ 的期望值滿足：

\[E(y|η)=\frac{d}{dη}a(η) \]

$p(y|η)$的方差滿足：

\[Var(y|η)=\frac{d^2}{dη^2}a(η) \]

如此簡潔的期望和方差意味着：一旦待估計的$y$的概率分布寫成了某種確定的指數分布族的形式（也就是給定了具體的 $a,b,T$），那么我們可以直接套用公式 $h(x,θ)=E(y|x,θ)=\frac{d}{dη}a(η) $ 構建回歸模型。

實際上大多數的概率分布都屬於指數分布家族，比如
1）伯努利分布 0-1問題
2）二項分布，多項分布多取值多次試驗
3）泊松分布計數過程
4）伽馬分布與指數分布
5）$\beta$分布
6）Dirichlet分布
7）高斯分布
現在我們將高斯分布和伯努利分布用指數分布家族的形式表示：
Bernoulli分布的指數分布族形式：

\[p(y=1;\phi)=\phi;p(y=0;\phi)=1-\phi \\ \Longrightarrow \\ p(y;\phi)=\phi ^ y (1-\phi) ^ {1-y} \\ = \exp(y log \phi + (1-y)log(1-\phi)) \\ = \exp((\log(\frac{\phi}{1-\phi}))y+\log(1-\phi)) \]

即：在如下參數下廣義線性模型是 Bernoulli 分布

\[η=\log(\phi/(1-\phi)) \Longrightarrow \phi=1/(1+e^{-η}) \\ T(y) = y \\ a(η)=-log(1-\phi)=log(1+e^η) \\ b(y)=1 \]

Gaussian 分布的指數分布族形式：
在線性回歸中，$\sigma$對於模型參數$\theta$的選擇沒有影響，為了推導方便我們將其設為1：

\[p(y;\mu)=\frac{1}{\sqrt{2 \pi}} \exp(-\frac{1}{2} (y-\mu)^2) \\ = \frac{1}{\sqrt{2 \pi}} \exp(-\frac{1}{2} y^2) \cdot \exp(\mu y-\frac{1}{2} \mu ^ 2) \]

得到對應的參數：

\[η=\mu \\ T(y) = y \\ a(η)= \mu^2/2 = η^2/2 \\ b(y)=\frac{1}{\sqrt{2 \pi}} \exp(-\frac{1}{2} y^2) \]

用廣義線性模型進行建模

想用廣義線性模型對一般問題進行建模首先需要明確幾個假設：

1.$y|x;\theta ∼ ExponentialFamily(η)$的條件概率屬於指數分布族
2.給定x 廣義線性模型的目標是求解 T(y)|x ，不過由於很多情況下$T(y)=y$所以我們的目標變成了$y|x$ , 也即我們希望擬合函數為$h(x)=E[y|x]$
(NOTE：這個條件在線性回歸和邏輯回歸中都滿足，例如邏輯回歸中$h_\theta(x)=p(y=1|x;\theta)$)
3.自然參數$η$與 $x$是線性關系： $η=\theta^T x$ ($η$為向量時,$η_i=\theta_i^T x$ )

有了如上假設就可以進行建模和求解了：
廣義線性模型推導出線性回歸：
step1: $p(y|x;theta) ∼ N(\mu,\theta)$

step2: 由假設2$h(x)=E[y|x]$得到：

\[h(x)=E[y|x] \\ =\mu \\ =η \\ =\theta^T x \]

廣義線性模型推導出邏輯回歸：
step1: $p(y|x;theta) ∼ Bernoulli(\phi)$

step2: 由假設2$h(x)=E[y|x]$得到：

\[h(x)=E[y|x] \\ =\phi \\ =\frac{1}{1+e^{-η}} \\ =\frac{1}{1+e^{-\theta^T x}} \\ \]

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 廣義線性模型廣義線性模型廣義線性模型（GLM）線性模型(2) -- 廣義線性模型邏輯回歸以及廣義線性模型總結廣義線性模型（Generalized Linear Model） logistic回歸和廣義線性模型知識擴展3——廣義線性模型GLM 廣義線性模型（Generalized Linear Model）廣義線性模型（Generalized Linear Models）