廣義線性模型


從線性回歸,logistic回歸,softmax回歸,最大熵的概率解釋來看,我們會發現線性回歸是基於高斯分布+最大似然估計的結果,logistic回歸是伯努利分布+對數最大似然估計的結果,softmax回歸是多項分布+對數最大似然估計的結果,最大熵是基於期望+對數似然估計的結果。前三者可以從廣義線性模型角度來看。

廣義線性模型

廣義線性模型建立在三個定義的基礎上,分別為:
定義線性預測算子

\[η = θ^T x \]

定義y的估計值

\[h(x,θ)=E(y|x,θ) \]

定義 y 的估值概率分布屬於某種指數分布族:

\[Pr(y|x,θ)=b(y) \exp(η^T T(y)−a(η)) \]

接下來詳細解釋各個定義

指數分布家族

指數分布家族是指可以表示為指數形式的概率分布,指數分布的形式如下:

\[p(y;η)=b(y) exp(η^T T(y)−a(η)) \]

其中:

  1. \(η\)被稱為自然參數(natural parameters)
  2. T(y)稱為充分統計量,通常$T(y) = y $
  3. \(a(η)\)稱為對數分割函數(log partition function);
  4. \(e^{-a(η)}\)本質上是一個歸一化常數,確保\(p(y;η)\)概率和為1。

\(T(y)\)被固定時,\(a(η)\)\(b(y)\)就定義了一個以\(η\)為參數的一個指數分布。我們變化\(η\)就得到這個分布的不同分布。
為什么要把$ y \(的條件分布定義為這么奇怪的指數分布族?這是因為,在這樣的定義下,我們可以證明: \)p(y|η)$ 的期望值滿足:

\[E(y|η)=\frac{d}{dη}a(η) \]

\(p(y|η)\)的方差滿足:

\[Var(y|η)=\frac{d^2}{dη^2}a(η) \]

如此簡潔的期望和方差意味着:一旦待估計的\(y\)的概率分布寫成了某種確定的指數分布族的形式(也就是給定了具體的 \(a,b,T\)),那么我們可以直接套用公式 $h(x,θ)=E(y|x,θ)=\frac{d}{dη}a(η) $ 構建回歸模型。

實際上大多數的概率分布都屬於指數分布家族,比如
1)伯努利分布 0-1問題
2)二項分布,多項分布 多取值 多次試驗
3)泊松分布 計數過程
4)伽馬分布與指數分布
5)\(\beta\)分布
6)Dirichlet分布
7)高斯分布
現在我們將高斯分布和伯努利分布用指數分布家族的形式表示:
Bernoulli分布的指數分布族形式:

\[p(y=1;\phi)=\phi;p(y=0;\phi)=1-\phi \\ \Longrightarrow \\ p(y;\phi)=\phi ^ y (1-\phi) ^ {1-y} \\ = \exp(y log \phi + (1-y)log(1-\phi)) \\ = \exp((\log(\frac{\phi}{1-\phi}))y+\log(1-\phi)) \]

即:在如下參數下 廣義線性模型是 Bernoulli 分布

\[η=\log(\phi/(1-\phi)) \Longrightarrow \phi=1/(1+e^{-η}) \\ T(y) = y \\ a(η)=-log(1-\phi)=log(1+e^η) \\ b(y)=1 \]

Gaussian 分布的指數分布族形式:
在線性回歸中,\(\sigma\)對於模型參數\(\theta\)的選擇沒有影響,為了推導方便我們將其設為1:

\[p(y;\mu)=\frac{1}{\sqrt{2 \pi}} \exp(-\frac{1}{2} (y-\mu)^2) \\ = \frac{1}{\sqrt{2 \pi}} \exp(-\frac{1}{2} y^2) \cdot \exp(\mu y-\frac{1}{2} \mu ^ 2) \]

得到對應的參數:

\[η=\mu \\ T(y) = y \\ a(η)= \mu^2/2 = η^2/2 \\ b(y)=\frac{1}{\sqrt{2 \pi}} \exp(-\frac{1}{2} y^2) \]

用廣義線性模型進行建模

想用 廣義線性模型對一般問題進行建模首先需要明確幾個 假設:

1.\(y|x;\theta ∼ ExponentialFamily(η)\)的條件概率屬於指數分布族
2.給定x 廣義線性模型的目標是 求解 T(y)|x , 不過由於 很多情況下\(T(y)=y\)所以我們的目標變成了\(y|x\) , 也即 我們希望擬合函數為\(h(x)=E[y|x]\)
(NOTE: 這個條件在 線性回歸 和 邏輯回歸中都滿足, 例如 邏輯回歸中\(h_\theta(x)=p(y=1|x;\theta)\))
3.自然參數\(η\)\(x\)是線性關系 : \(η=\theta^T x\) (\(η\)為向量時,\(η_i=\theta_i^T x\) )

有了如上假設 就可以進行建模和求解了:
廣義線性模型 推導出 線性回歸:
step1: \(p(y|x;theta) ∼ N(\mu,\theta)\)

step2: 由假設2\(h(x)=E[y|x]\)得到:

\[h(x)=E[y|x] \\ =\mu \\ =η \\ =\theta^T x \]

廣義線性模型 推導出 邏輯回歸:
step1: \(p(y|x;theta) ∼ Bernoulli(\phi)\)

step2: 由假設2\(h(x)=E[y|x]\)得到:

\[h(x)=E[y|x] \\ =\phi \\ =\frac{1}{1+e^{-η}} \\ =\frac{1}{1+e^{-\theta^T x}} \\ \]


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM