知識擴展3——廣義線性模型GLM


廣義線性模型GLM


判斷標准非常簡單,響應變量y獨立則GLM,否則GLMM。這就是最本質的判斷標准,其它的標准都是基於這個標准來的

指數分布族

概率密度為

\[f_X(x;\theta) = h(x) e^{ (\ \eta(\theta)\cdot T(x)+A(\theta)\ )} \]

其中

\(\eta(\theta)\)​​​​​​被稱為這個分布的自然參數(natural parameter )

\(T(x)\)​​​​​​​為充分統計量(sufficient statistic) ,通常 \(T(x)=x\)​​​​​

\(A(\theta)\)​​​​​​為累計函數(cumulant function) , 作用是確保概率和\(\sum f(x;\theta)\)​​​​為1

\(h(x)\)​​​為 underlying measure

\(T,A,h(y)\)​​​固定之后就確定了指數分布族中的一種分布模型,就得到了以\(\eta\)​​​為參數的模型

還有兩個等價的形式

\[f_X(x|\theta) = h(x) g(\theta) e^{(\ \eta(\theta)\cdot T(x) \ )} \\ f_X(x|\theta) = e^{(\ \eta(\theta)\cdot T(x)+ A(\theta) \ )} \]

其實,大多數概率分布都屬於指數分布族:

  • 伯努利分布(Bernouli):對0,1問題進行建模
  • 二項分布(Multinomial): 對K個離散結果的事件建模
  • 泊松分布(Poisson)
  • 指數分布(exponential)和伽馬分布(gamma):
  • 高斯分布(Gaussian)
  • \(\cdots\)

指數分布族中常用的分布

求解的方法就是將概率分布符合指數分布族的轉換成它對應的指數分布族的形式,求出指數分布族對應位置上的參數即可求出原模型的參數。

伯努利分布 Bernoulli

伯努利分布是假設一個事件只有發生或者不發生兩種可能,並且這兩種可能是固定不變的。那么,如果假設它發生的概率是 p,那么它不發生的概率就是 1-p。這就是伯努利分布。
伯努利實驗就是做一次服從伯努利概率分布的事件,它發生的可能性是 p,不發生的可能性是 1-p。

\(X\) \(1\) \(0\)
\(P\) \(p\) \(1-p\)

\[f(x|p)=p^xq^{1-x} \]

我們來通過對伯努利的分布函數進行變形來展示伯努利分布是指數分布族中的一員

\[\begin{aligned} P(x; p) &= p^x(1-p)^{(1-x)} \\ &= e^{log p^x} \cdot e^{log(1-p)^{1-x}} \\ &=e^{xlog p+(1-x)log(1-p)} \\ &=e^{xlog\frac{p}{1-p}+log(1-p)} \end{aligned} \]

這就和\(f_X(x;\theta) = h(x) e^{ (\ \eta(\theta)\cdot T(x)+A(\theta)\ )}\)的形式歸為一致了

也就是說,我們選擇

  • \(\eta (\theta)=log\frac{p}{1-p}\)作為自然參數

  • \(T(x)=x\)

  • \(A(\theta)=log(1-p)=log(1+e^\eta(p))\)

  • \(h(x)=1\)​​

時,指數分布族就是伯努利分布

泊松分布 Poisson

泊松分布的概率函數為

\[P(X=k) = \frac{\lambda^k}{k!}e^{-\lambda},k=0,1\cdots \]

泊松分布的參數λ是單位時間(或單位面積)內隨機事件的平均發生次數。 泊松分布適合於描述單位時間內隨機事件發生的次數。

當二項分布的n很大而p很小時,泊松分布可作為二項分布的近似,其中λ為np。通常當n≧20,p≦0.05時,就可以用泊松公式近似得計算。

\[\begin{aligned} p(x|\lambda) &= \frac{\lambda^xe^{-\lambda}}{x!} \\ &=\frac{1}{x!}e^{log \lambda^x} \cdot e^{-\lambda} \\ &= \frac{1}{x!}e^{xlog\lambda-\lambda} \end{aligned} \]

因此,泊松分布也屬於指數分布族,其相關參數為

  • $\eta({\theta} )= log \lambda $
  • \(T(x)=x\)
  • \(A(\theta) = \lambda = e^\eta\)
  • \(h(x)=\frac{1}{x!}\)

高斯分布(正態分布) Gaussian

單高斯分布的公式

\[p(x;\mu,\delta) = \frac{1}{\sqrt{2\pi \delta^2}} exp(-\frac{(x-\mu)^2}{2\delta^2}) \]

參數\(\mu\)代表樣本均值 , \(\delta\)表示樣本的標准差

\[\begin{aligned} p(x) &= \frac{1}{\sqrt{2\pi \delta^2}} e^{-\frac{(x-\mu)^2}{2\delta^2}} \\ &= \frac{1}{\sqrt{2\pi \delta^2}} exp(-\frac{(x-\mu)^2}{2\delta^2}) \\ &= \frac{1}{\sqrt{2\pi }} exp(-log\delta-\frac{(x^2-2\mu x+\mu^2)}{2\delta^2}) \\ &= \frac{1}{\sqrt{2\pi }} exp(-log\delta-\frac{x^2}{2\delta^2}+\frac{\mu x}{\delta^2}-\frac{\mu^2}{2\delta^2}) \\ \end{aligned} \]

高斯

所以單變量高斯分布也屬於指數分布族

多變量高斯分布

標准形式為多元高斯1
寫成指數族形式:多元高斯2

多變量高斯分布

多項式分布 Multinomial

多項式分布(Multinomial Distribution)是二項式分布的推廣。

二項分布的典型例子是扔硬幣,硬幣正面朝上概率為p, 重復扔n次硬幣,k次為正面的概率即為一個二項分布概率。把二項分布公式推廣至多種狀態,就得到了多項分布。

某隨機實驗如果有\(k\)​​​​個可能結局\(A_1、A_2、…、A_k\)​​​​,分別將他們的出現次數記為隨機變量\(X_1、X_2、…、X_k\)​​​​,它們的概率分布分別是\(p_1,p_2,…,p_k\)​​​​,那么在\(N\)​​​​次采樣的總結果中,\(A_1\)​​​​出現\(m_1\)​​​​次、\(A_2\)​​​​​出現\(m_2\)​​​​次、…、\(A_k\)​​​​出現\(m_k\)​​​​次的這種事件的出現概率\(P\)​​​​有下面公式

\[P(X_1=m_1,X_2=m_2,\cdots,X_n=m_n)=\frac{N!}{m_1!m_2!\cdots m_n!}p_1^{m_1}p_2^{m_2}\cdots p_n^{m_n} \\ 其中,p_i\geq 0(1\leq i \leq n), p_1+p_2+\cdots+p_n=1,m_1+m_2+\cdots+m_n=N \]

image-20211102210017697 image-20211102210030181

假設

為了給問題構造GLM模型,必須首先知道GLM模型的三個假設

  1. \(y|x;\eta \thicksim ExponentialFamily(\eta)\)​​​ .

比如給定樣本\(x\)​​​​與參數\(\eta\)​​​​,樣本的分類\(y\)​​​​服從以\(\eta\)​​​​為參數的​指數分布族中的某個分布

  1. 給定\(x\)​​​,廣義線性模型的目標是求解\(T(y)|x\)​​​ ( 即給定樣本\(x\)​​的一個分類 )

不過由於很多情況下\(T(y)=y\)​​,所以我們的目標就變成了\(h(x)=E[y|x;\theta]\)

  1. \(\eta=\theta^T x\)​ .

即自然參數\(\eta(\theta)\)​和輸入\(x\)​滿足線性關系​

GLM 與邏輯回歸

  1. 對於二分類問題,假設\(y\)​​服從伯努利分布,滿足第一個假設,即\(y|x;\theta \thicksim Bernoulli(\phi)\)

  2. 對於伯努利分布,我們得知 \(P(y; \phi) = \phi^y(1-\phi)^{(1-y)} =e^{ylog\frac{\phi}{1-\phi}+log(1-\phi)}\)​​

  • \(\eta (\theta)=log\frac{\phi}{1-\phi}\)​作為自然參數 ,進而得到\(\phi = \frac{1}{1+e^{-\eta}}\)

  • \(T(y)=y\)

  • \(A(\theta)=log(1-\phi)=log(1+e^{\eta (\theta)})\)​​

  • \(h(y)=1\)

  1. 根據第三個假設 \(\eta=\theta^T x\)

我們就有

\[\phi = \frac{1}{1+e^{-\eta}} = \frac{1}{1+e^{-\theta^T x}}\\ 即 p(y=1|x;\theta) = \frac{1}{1+e^{-\theta^T x}} \]

這里的\(\phi\)就是伯努利分布中的概率\(p\),即事件發生的概率\(p(y=1)\)

GLM與線性回歸

  1. 在線性回歸中,我們對概率分布做出的假設是服從正態分布 $y|x;\theta \thicksim N(\mu,\delta^2) $​

  2. 我們可以將\(\delta\)設為1 ,那么則服從$y|x;\theta \thicksim N(\mu,1) $​

由上面推導,我們可以得知

\[ p(y;\mu) = \frac{1}{\sqrt{(2 \pi)}} exp(-\frac{1}{2}(y-\mu)^2) \\ =\frac{1}{\sqrt{(2 \pi)}} exp(-\frac{1}{2}y^2)exp(\mu y-\frac{1}{2}\mu^2 ) \]

3

  1. 根據第三個假設 \(\eta=\theta^T x\)

於是我們就有

4

線性回歸下最大似然估計與最小二乘的統一

我們發現對高斯分布做最大似然估計

siran (2)

感謝

https://www.jianshu.com/p/9c61629a1e7d

(10條消息) 指數分布族(Exponential Family)相關公式推導及在變分推斷中的應用_qy20115549的博客-CSDN博客

https://fighterhit.oschina.io/2017/12/24/machine_learning_notes/從廣義線性模型理解邏輯回歸/

https://blog.csdn.net/xierhacker/article/details/53364408


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM