指數分布族
\begin{equation} p(y;\eta)=b(y)\cdot exp\{\eta^TT(y)-a(\eta)\} \label{exponential family} \end{equation}
$b(y)$和$T(y)$是關於y的函數,$a(\eta)$是關於$\eta$的函數,當$b,T,a$都確定時,(\ref{exponential family})式就指定了以$\eta$為參數的函數族,並且這些函數都是指數形式的。
伯努利分布(Bernoulli)、高斯分布(Gaussian)、多項式分布(Multinomial)、泊松分布(Poisson)、伽馬分布(Gamma)、指數分布(Exponential)、β分布、Dirichlet分布、Wishart分布,都屬於指數分布族。
廣義線性模型(GLM)
廣義線性模型有3個假設:
- $p(y|x;\theta)$是一個以$\eta$為參數的指數分布,即概率函數如(\ref{exponential family})式所示。
- 給定x,我們的目標是預測T(y)的期望,即$E[T(y)|x]$。通常情況下
\begin{equation} T(y)=y \label{ty} \end{equation}
此時我們的目標上預測$E(y|x)$ - \begin{equation} \eta=\theta^Tx \label{et} \end{equation}
當y屬於不同的分布(比如伯努利分布、多項分布、高斯分布)時,根據廣義線性模型可以推出$E(y|x;\theta)$的函數表達式。
y的分布 | $E(y|x;\theta)$ |
伯努利分布 | $sigmoid(x;\theta)$ |
多項分布 | $softmax(x;\theta)$ |
高斯分布 | $\theta^Tx$ |
下面我們來逐一證明。
LR屬於GLM
y服從伯努利分布時,$y\in \{0,1\}$,y=1的概率設為$\phi$,則
\begin{equation} E(y)=\phi \label{elr} \end{equation}
$$p(y;\phi)=\phi^y(1-\phi)^{1-y}=exp\{ylog\phi+(1-y)log(1-\phi)\}$$
\begin{equation} =exp\left\{log\frac{\phi}{1-\phi}y+log(1-\phi)\right\} \label{lr} \end{equation}
將(\ref{lr})式與(\ref{exponential family})式對比,得
$b(y)=1,\eta=log\frac{\phi}{1-\phi},T(y)=y,a(\eta)=-log(1-\phi)$
所以
\begin{equation} \phi=\frac{1}{1+e^{-\eta}} \label{etalr} \end{equation}
聯合(\ref{etalr})(\ref{elr})(\ref{et})得
$$E(y|x;\theta)=\frac{1}{1+e^{-\theta^Tx}}$$
softmax屬於GLM
定義示性函數
$$1(condition)=\left\{\begin{matrix}1&if \; condition \; is \; true \\ 0&if \; condition \; is \; false\end{matrix}\right.$$
y服從多項式分布時,設一共有k項,y屬於每一項的概率分別為$\phi_1,\phi_2,\cdots,\phi_k$,則
\begin{equation}E[1(y=i)]=\phi_i \label{emn} \end{equation}
且有
$$1(y=k)=1-\sum_i^{k-1}{1(y=i)}$$
$$p(y;\phi)=\phi_1^{1(y=1)}\phi_2^{1(y=2)}\cdots\phi_k^{1-\sum_i^{k-1}{1(y=i)}}$$
$$=exp\left\{1(y=1)log\phi_1+1(y=2)log\phi_2+\cdots+\left(1-\sum_i^{k-1}{1(y=i)}\right)log\phi_k\right\}$$
\begin{equation} =exp\left\{1(y=1)log{\frac{\phi_1}{\phi_k}}+1(y=2)log{\frac{\phi_2}{\phi_k}}+\cdots+1(y=k-1)log{\frac{\phi_{k-1}}{\phi_k}}+log\phi_k\right\} \label{mn} \end{equation}
將(\ref{mn})式與(\ref{exponential family})式對比,得
$$b(y)=1,a(\eta)=-log\phi_k$$
\begin{equation}T(y)=\left[\begin{array} \ 1(y=1)\\1(y=2)\\ \vdots\\1(y=k-1)\end{array}\right] \label{1} \end{equation}
\begin{equation}\eta=\left[\begin{array} \ log{\frac{\phi_1}{\phi_k}} \\ log{\frac{\phi_2}{\phi_k}} \\ \vdots \\ log{\frac{\phi_{k-1}}{\phi_k}} \\\end{array} \right] \label{2} \end{equation}
由(\ref{emn})(\ref{1})得
\begin{equation} E[T(y)]=\left[\begin{array} \ E[1(y=1)]\\E[1(y=2)]\\ \vdots\\E[1(y=k-1)]\end{array}\right]=\left[\begin{array} \ \phi_1 \\ \phi_2 \\ \vdots \\ \phi_{k-1}\end{array}\right] \label{3} \end{equation}
由(\ref{2})得
$$\eta_i=log\frac{\phi_i}{\phi_k} \;\;\;\; 1 \le i <k$$
\begin{equation} \therefore \phi_i=\phi_ke^{\eta_i} \;\;\;\; 1 \le i <k \label{4} \end{equation}
(\ref{4})式兩邊對i求和
$$\sum_i^{k-1}{\phi_i}=\sum_i^{k-1}{\phi_ke^{\eta_i}}=\phi_k\sum_i^{k-1}{e^{\eta_i}}=1-\phi_k$$
\begin{equation}\therefore \phi_k=\frac{1}{1+\sum_i^{k-1}{e^{\eta_i}}} \label{5} \end{equation}
代入(\ref{4})式得
\begin{equation}\phi_i=\frac{e^{\eta_i}}{1+\sum_i^{k-1}{e^{\eta_i}}} \;\;\;\; 1 \le i <k \label{6} \end{equation}
聯合(\ref{et})(\ref{emn})(\ref{5})(\ref{6})得
$$E[1(y=i)|x;\theta]=\left\{\begin{matrix}\frac{e^{\eta_i}}{1+\sum_i^{k-1}{e^{\eta_i}}}=\frac{e^{\theta_i^Tx}}{1+\sum_i^{k-1}{e^{\theta_i^Tx}}}&if\;1 \le i <k \\ \frac{1}{1+\sum_i^{k-1}{e^{\eta_i}}}=\frac{1}{1+\sum_i^{k-1}{e^{\theta_i^Tx}}}&if\;i=k \end{matrix}\right.$$
因為y服從多項分布,即每次試驗y只能取k種情況中的一種,所以對於多分類問題如果k個類別之間是互斥的才適合用softmax,相反如果一個樣本可以同時屬於多個類別則不能用softmax,而應該為每一個類別建立一個sigmoid函數。
線性模型屬於GLM
y服從高斯分布$y~N(\mu,\sigma^2)$,則
\begin{equation}E(y)=\mu\label{eg}\end{equation}
$$p(y;\eta)=\frac{1}{\sqrt{2\pi}\sigma}exp\left\{-\frac{(y-\mu)^2}{2\sigma^2}\right\}=\frac{1}{\sqrt{2\pi}\sigma}exp\left\{\frac{-y^2-\mu^2+2y\mu}{2\sigma^2}\right\}$$
\begin{equation}=\frac{1}{\sqrt{2\pi}\sigma}exp\left(-\frac{y^2}{2\sigma^2}\right)exp\left\{\frac{\mu}{\sigma^2}y-\frac{\mu^2}{2\sigma^2}\right\}\label{gauss}\end{equation}
將(\ref{gauss})式與(\ref{exponential family})式對比,得
$$b(y)=\frac{1}{\sqrt{2\pi}\sigma}exp\left(-\frac{y^2}{2\sigma^2}\right),\eta=\frac{\mu}{\sigma^2},T(y)=y,a(\eta)=\frac{\mu^2}{2\sigma^2}$$
再結合(\ref{et})(\ref{eg})得
$$E(y|x;\theta)=\mu=\sigma^2\eta=\sigma^2\theta^Tx$$
即y是關於x的線性模型。