高斯函數與正態分布
高斯函數或者說正態分布函數在很多場合都得到廣泛應用,其是概率論和統計學的核心,在最大似然估計、貝葉斯估計中必不可少。其也是稀疏貝葉斯估計的重要基礎。下面對高斯函數的一些基本知識點進行歸納和總結,不當之處,歡迎批評指正。
(1) 高斯函數
高斯函數定義如下
\begin{equation}
f(x)=aexp(-\frac{(x-b)^2}{2c^2})
\end{equation}
其中$a$, $b$,$c$ 為對應的參數。高斯函數是一個鍾形曲線。其中參數$a$控制函數的幅度,參數$b$控制鍾形曲線的水平位置,參數$c$反應鍾形曲線鍾的寬度。
(2) 一維正態分布
令$a=\frac{1}{\sqrt{2\pi}\sigma}$, $b=\mu$, $c=\sigma$, 可得一維隨機變量$x$高斯概率密度函數為
\begin{equation}
f(x)=\frac{1}{\sqrt{2\pi}\sigma}exp(-\frac{(x-\mu)^2}{2\sigma^2})
\end{equation}
其中$\mu$,$\sigma^2$分別表示均值和方差。當$\mu=0$以及$\sigma=1$時,即為標准正態分布。此時
\begin{equation}
f(x)=\frac{1}{\sqrt{2\pi}}exp(-\frac{x^2}{2})
\end{equation}
由高斯概率密度函數的定義知
\begin{equation}
\int_{-\infty}^{+\infty}e^{-\frac{(x-\mu)^2}{2\sigma^2}}dx=\int_{-\infty}^{+\infty}e^{-\frac{x^2}{2\sigma^2}}dx=\sqrt{2\pi}\sigma
\end{equation}
以及
\begin{equation}
\int_{-\infty}^{+\infty}e^{-\frac{x^2}{2}}dx=\sqrt{2\pi}
\end{equation}
當然上述結果也可以由積分得到。比如令$s=\int_{-\infty}^{+\infty}e^{-\frac{x^2}{2}}dx$,則$s^2=\int_{-\infty}^{+\infty}e^{-\frac{x^2}{2}}dx\int_{-\infty}^{+\infty}e^{-\frac{y^2}{2}}dy=\int_{-\infty}^{\infty}{\int_{-\infty}^{+\infty}e^{-\frac{x^2+y^2}{2}}}dxdy=\int_{0}^{2\pi}\int_{0}^{+\infty}e^{-\frac{r^2}{2}}rdrd\theta=2\pi$,故得到上述結果。
均值決定高斯分布密度函數的位置,方差反應隨機變量偏離均值的距離。方差越大,概率密度函數越平坦,方差越小,概率密度函數越尖銳、窄小,如下圖所示。
(3)多維高斯分布的概率密度函數
任意$N$維隨機變量高斯概率密度函數可以由多維獨立隨機變量的概率密度函數導出,例如令$\bm{y}=\bm{A}(\bm{x}-\bm{\mu})$,用$\mu$進行平移,矩陣$\bm{A}$進行相關變換。具體過程忽略,可參考知乎或相關博客講解。$N$維高斯分布的概率密度函數如下
\begin{equation}
f(\bm{x})=(2\pi)^{-\frac{N}{2}}\left| \bm{\Sigma}\right| ^{-\frac{1}{2}}exp[-\frac{1}{2}(\bm{x}-\bm{\mu})^T\Sigma^{-1}(\bm{x}-\bm{\mu})]
\end{equation}
式中$\bm{\mu}$表示均值向量,$\bm{\Sigma}$表示協方差矩陣。指數部分可以寫成另外的形式$L=-\frac{1}{2}(\bm{x}-\bm{\mu})^T\Sigma^{-1}(\bm{x}-\bm{\mu})=-\frac{1}{2}(\bm{x}^T\bm{\Sigma}^{-1}\bm{x}-2\bm{\mu}^T\bm{\Sigma}^{-1}\bm{x}+\bm{\mu}^T\bm{\Sigma}^{-1}\bm{\mu})$
兩個及多個高斯分布的乘積
(1) 兩個高斯概率密度函數的乘積
現有兩個高斯函數分布,分別可以表示為$f(x;\mu_1,\sigma_1)=\frac{1}{\sqrt{2\pi}\sigma_1}exp(-\frac{(x-\mu_1)^2}{2\sigma_1^2})$以及為$f(x;\mu_2,\sigma_2)=\frac{1}{\sqrt{2\pi}\sigma_2}exp(-\frac{(x-\mu_2)^2}{2\sigma_2^2})$,則它們的乘積可以表示為
\begin{equation}
g(x)=f(x;\mu_1,\sigma_1)f(x;\mu_2,\sigma_2)=\frac{1}{2\pi\sigma_1\sigma_2}exp(-\frac{(x-\mu_1)^2}{2\sigma_1^2}-\frac{(x-\mu_2)^2}{2\sigma_2^2})
\end{equation}
令$L=-\frac{(x-\mu_1)^2}{2\sigma_1^2}-\frac{(x-\mu_2)^2}{2\sigma_2^2}$,可采用配方法得到高斯密度函數的形式,這里采用求導法。很明顯高斯密度函數的指數部分的一階導數在均值處有零點,二階導數與方差的倒數(多維向量為協方差矩陣的逆)成正比,正比系數為-1。令
\begin{equation}
\frac{dL}{dx}=-\frac{x-\mu_1}{2\sigma_1^2}-\frac{x-\mu_2}{2\sigma_2^2}=0
\end{equation}
得出$x=\frac{\frac{\mu_1}{\sigma_1^2}+\frac{\mu_2}{\sigma_2^2}}{\frac{1}{\sigma_1^2}+\frac{1}{\sigma_2^2}}=\frac{\mu_1\sigma_2^2+\mu_2\sigma_1^2}{\sigma_1^2+\sigma_2^2}.$
再令$\Lambda_i=1/\sigma_i^2$, for $i=1,2$,則可以得到新的高斯分布的均值$\mu$為
\begin{equation}
\mu=\frac{\Lambda_1\mu_1+\Lambda_2\mu_2}{\Lambda_1+\Lambda_2}
\end{equation}
繼續求導有$\frac{d^2L}{d^2x}=-\frac{1}{\sigma_1^2}-\frac{1}{\sigma_2^2}$。即新高斯分布的方差應滿足
\begin{equation}
\frac{1}{\sigma^2}=\frac{1}{\sigma_1^2}+\frac{1}{\sigma_2^2}
\end{equation}
所以關於兩個高斯概率密度函數的乘積有如下結論:兩個高斯概率密度函數的乘積仍然為高斯分布,其均值為原始兩個高斯分布的均值加權和,權值為對應方差的倒數;新高斯分布方差的倒數為原始兩個高斯分布的方差倒數之和。
(2)多個高斯概率密度函數的乘積
上述結論可以推廣到多個高斯概率密度函數的乘積。假設有$f(x_i;\mu_i,\sigma_i^2)$,$i=1,2,\dots,N$,令
\begin{equation}
g(x)=\prod_{i=1}^{N}(f(x_i;\mu_i,\sigma_i^2))
\end{equation}
則$g(x)$也是一個高斯函數,其均值方差滿足
\begin{equation}
\left\{
\begin{aligned}
\mu & = \frac{\sum_{i=1}^{N}\Lambda_i\mu_i}{\sum_{i=1}^{N}\Lambda_i}\\
\Lambda & = \sum_{i=1}^{N}\Lambda_i
\end{aligned}
\right.
\end{equation}
其中$\Lambda_i=1/\sigma_i^2$為第$i$個高斯函數的方差的倒數。
(3)多個多維高斯密度函數的乘積
首先多維高斯概率密度函數$f(\bm{x})=exp\{-\frac{1}{2}(\bm{x}^T\bm{\Sigma}^{-1}\bm{x}-2\bm{\mu}^T\bm{\Sigma}^{-1}\bm{x}+\bm{\mu}^T\bm{\Sigma}^{-1}\bm{\mu})\}$可以寫成
\begin{equation}
f(\bm{x})=exp[\bm{\zeta}+\bm{\eta}^T\bm{x}-\frac{1}{2}\bm{x}^T\bm{\Psi x}]
\end{equation}
其中$\bm{\Psi}=\Sigma^{-1}$,$\bm{\eta}=\Sigma^{-1}\mu$,$\zeta=-\frac{1}{2}(Nln(2\pi)-ln\Psi+\bm{\eta}^T\bm{\Psi}^{-1}\bm{\eta})$。現假設有$N$個高斯分布的概率密度函數$f_i(x)=exp[\bm{\zeta}^i+\bm{\eta}_i^T\bm{x}-\frac{1}{2}\bm{x}^T\bm{\Psi}_i\bm{x}]$,其乘積為
\begin{equation}
g(\bm{x})=\prod_{i=1}^Nf_i(\bm{x})=exp\left[\sum_{i=1}^{N}\zeta_i+(\sum_{i=1}^{N}\bm{\eta}_i^T)\bm{x}-\frac{1}{2}\bm{x}^T(\sum_{i=1}^{N}\bm{\Psi}_i)\bm{x}\right]
\end{equation}
令$\bm{\Psi}=\sum_{i=1}^{N}\bm{\Psi_i}$,
$\bm{\eta}=\sum_{i=1}^{N}\bm{\eta_i}=\sum_{i=1}^{N}\bm{\Sigma}_i^{-1}\mu_i=\sum_{i=1}^{N}\bm{\Psi_i\mu_i}\triangleq\bm{\Psi\mu}$時,$g(\bm{x})$可以進一步寫成
\begin{equation}
g(\bm{x})=exp(-\bm{\zeta}+\sum_{i=1}^{N}\bm{\zeta_i})exp(\bm{\zeta}+\bm{\eta}^T\bm{x}-\frac{1}{2}\bm{x}^T\bm{\Psi}^T\bm{x})
\end{equation}
其中$\zeta=-\frac{1}{2}(Nln(2\pi)-ln\Psi+\bm{\eta}^T\bm{\Psi}^{-1}\bm{\eta})$
\\可以得出結論:多個多維高斯分布概率密度函數的乘積等於一個高斯分布概率密度函數與一個常數的乘積,也就是一個高斯函數
兩個高斯分布的卷積
函數$f(x)$與$g(x)$的卷積為
\begin{equation}
f(x)\otimes g(x)=\int_{-\infty}^{+\infty}f(x-\tau)g(\tau)d\tau
\end{equation}
這里要用到傅里葉變換及卷積定理,卷積定理簡單說是指時域的卷積等於頻域的乘積。
假設$f(x)=\frac{1}{\sqrt{2\pi}\sigma_f}exp[-\frac{(x-\mu_f)^2}{2\sigma_f^2}]$,$g(x)=\frac{1}{\sqrt{2\pi}\sigma_g}exp[-\frac{(x-\mu_g)^2}{2\sigma_g^2}]$,有
\begin{equation}
F(f(x))=\int_{-\infty}^{+\infty}f(x)e^{-j\omega x}dx=\frac{1}{\sqrt{2\pi}\sigma_f}\int_{-\infty}^{+\infty}exp[-\frac{(x-\mu_f)^2}{2\sigma_f^2}]exp(-j\omega x)dx
\end{equation}
令$x-\mu_f=t$,則
\begin{equation}
\begin{aligned}
F(f(x))&=\frac{exp(j\omega \mu_f)}{\sqrt{2\pi}\sigma_f}\int_{-\infty}^{+\infty}exp(-\frac{t^2}{2\sigma_f^2})exp(-j\omega t)dt\\
&=\frac{2exp(j\omega \mu_f)}{\sqrt{2\pi}\sigma_f}\int_{0}^{+\infty}exp(-\frac{t^2}{2\sigma_f^2})cos(\omega t)dt
\end{aligned}
.
\end{equation}
由積分$\int_{0}^{+\infty}e^{-at^2}cos(2xt)dt=\frac{1}{2}\sqrt{\frac{\pi}{a}}e^{-\frac{x^2}{a}}$可得
\begin{equation}
F(f(x))=e^{j\omega \mu_f}e^{-\frac{\omega^2\sigma_f^2}{2}}
\end{equation}
可以看出高斯概率密度函數的傅里葉變換仍然是一個高斯分布。進一步有
\begin{equation}
F(f(x))F(g(x))=e^{j\omega(\mu_f+\mu_g)}e^{-\frac{\omega^2(\sigma_f^2+\sigma_g^2)}{2}}
\end{equation}
根據卷積定理有,
\begin{equation}
f(x)\otimes g(x)=F^{-1}(F(f(x))F(g(x)))=\frac{1}{\sqrt{2\pi}(\sigma_f+\sigma_g)}exp[-\frac{(x-(\mu_f+\mu_g)^2)}{2(\sigma_f^2+\sigma_g^2)}]
\end{equation}
即可得出結論:兩個高斯分布的卷積仍然是一個高斯分布,新高斯分布的均值為原有高斯分布均值之和,方差為原有兩個高斯分布的方差和。
Reference
[1] P.A.Bromiley. Products and Convolutions of Gaussian Probability Density Functions.2018
附錄
A1、關於求導的一些相關性質,在最大似然估計等地方可能用到。
\begin{equation}
\frac{\partial(\bm{AB})}{\partial x}=\frac{\partial \bm{A}}{\partial x}\bm{B}+\bm{A}\frac{\partial \bm{B}}{\partial x}
\end{equation}
\begin{equation}
\frac{\partial}{\partial x}\bm{A}^{-1}=-\bm{A}^{-1}\frac{\partial \bm{A}}{\partial x}\bm{\bm(A)}^{-1}
\end{equation}
\begin{equation}
\frac{\partial}{\partial x}ln\left| \bm{A}\right| =(\bm{A}^{-1})^T
\end{equation}
A2、關於求解高斯分布的概率密度函數的均值和方差
\\
假如有如下高斯分布,$f(x)=\frac{1}{\sqrt{2\pi}\sigma_1}e^{-\frac{(x-\mu_1)^2}{2\sigma_1^2}}$,令指數$L=-\frac{(x-\mu_1)^2}{2\sigma_1^2}$,顯然指數$L$的一階導數在均值$\mu$處有零點。二階導數恰好為方差的倒數的相反數$-1/\sigma_1^2$。結果同樣適用於多維高斯分布,此時二階導數應為協方差矩陣的逆的相反數。