這份是本人的學習筆記,課程為網易公開課上的斯坦福大學公開課:傅里葉變換及其應用。
中心極限定理(Central Limit Theorem)
中心極限定理,簡稱CLT。大多數概率事件,當有足夠多的取樣時,都服從高斯分布。(Most probabilities – some kind of average – are calculated or approximated as if they are determined by a Gaussian.)
標准正態(高斯)分布
在傅里葉變換中,我們用$f = e^{-\pi t^2}$作為標l准高斯函數,因為它的正逆傅里葉變換都是$e^{-\pi t^2}$。對中心極限定理來說,標准正態分布的密度函數(probability density function)是
$p(x) = \frac{1}{\sqrt{2\pi}} e^{\frac{-x^2}{2}}$
采用這個式子作為標准正態分布的原因是它的均值(期望值)是0,它的標准差與方差為1。
對應地,概率函數為
$Prob(a \leqslant X \leqslant b) = \displaystyle{\int_a^b p(x) dx = \frac{1}{\sqrt{2\pi}}\int_a^b e^{-\frac{x^2}{2}}dx }$
設有隨機變量$X$,$X$為統稱,$X$的實際測量值為$x$,$x$的概率密度函數記為$p(x)$。
對於任意$x$,都有
$p(x) \geqslant 0$
$x$在$a$到$b$之間的概率為
$Prob(a \leqslant x \leqslant b) = \displaystyle{\int_a^b p(x)dx }$
總概率為1
$Prob(-\infty \leqslant x \leqslant \infty) = \displaystyle{\int_{-\infty}^{\infty}p(x)dx = 1 }$
分布與卷積的關系
假設有兩個獨立的隨機變量:$x_1$,$x_2$,其密度函數分別為$p_1(x_1)$,$p_2(x_2)$。那么$x_1+x_2$的密度函數為$p_{12}(x_{12})$,它與$p_1(x_1)$、$p_2(x_2)$有什么關系呢?
求解過程如下:
設有任意變量$t$,$x_1+x_2 \leqslant t$的概率記為$Prob(x_1+x_2 \leqslant t)$。我們畫以下坐標圖像輔助分析
$Prob(x_1+x_2 \leqslant t)$意為坐標落在陰影部分的概率
$Prob(x_x+x_2 \leqslant t) = \displaystyle{\iint_{x_1 + x_2 \leqslant t} p_1(x_1)p_2(x_2)dx_1dx_2 }$
進行變量代換,令$u=x_1$,$v=x_1+x_2$,則
$\left\{\begin{matrix}
x_1 &= &u\\
x_2 &= &v - u\\
t &= &v
\end{matrix}\right.$
進行變量代換后,對應的新平面($u$,$v$平面)如下
計算如下
$\begin{align*}
Prob(x_1+x_2 \leqslant t)
&= Prob(v \leqslant t) \\
&= \int_{-\infty}^{\infty}\int_{-\infty}^{t}p_1(u)p_2(v-u)dudv \\
&= \int_{-\infty}^{t}\left( \int_{-\infty}^{\infty}p_1(u)p_2(v-u)du \right)dv \\
&= \int_{-\infty}^{t}(p_1 * p_2)dv
\end{align*}$
因此$p_1 * p_2$可當做$x_1+x_2$的密度函數。
結論:獨立隨機變量的和的密度函數為他們各自密度函數的卷積
$p(x_1+x_2+…+x_n) = p_1*p_2*…*p_n$
中心極限定理推導過程
設有$n$個隨機獨立變量$x_1,x_2,…,x_n$,他們滿足下列條件
1. 有相同的密度函數:$p_1=p_2=…=p_n=p(x)$
2. 均值(期望值)為:$\mu = \displaystyle{\int_{-\infty}^{\infty}xp(x)dx=0 }$
3. 標准差為:$\sigma = \displaystyle{\sqrt{\int_{-\infty}^{\infty}x^2p(x)dx } =1}$
4. 概率的一般性質,總概率為:$\displaystyle{\int_{-\infty}^{\infty}p(x)dx = 1 }$
設$S_n$為這$n$個隨機變量的和
$S_n = x_1+x_2+…+x_n$
$S_n$的密度函數為
$p^{*n} = \underbrace{p*p*...*p}_n$
$S_n$的均值為$0$,標准差為$\sqrt{n}$,因此我們需要對它進行標准化(Normalization)。
標准化包括兩個步驟:
1. 橫軸縮放。標准化后密度函數為$f(z)$,$z = \frac{x-\mu}{\sigma}$,即$x=\sigma z+\mu = \sqrt{n}z$
2. 縱軸縮放。$f(z) = \sigma f(x) = \sqrt{n} p^{*n}(x)$
兩個步驟合在一起,得到
$f(z) = \sqrt{n} p^{*n}(\sqrt{n}z)$
記標准化后的密度函數為
$p_{normal}(x) = \sqrt{n} p^{*n}(\sqrt{n}x)$
為了把卷積計算簡化,需要引入傅里葉變換把卷積運算轉換為乘法運算
$\begin{align*}
\mathcal{F}\left(\sqrt{n}(p^{*n})(\sqrt{n}x)\right)
&=\sqrt{n}\cdot\frac{1}{\sqrt{n}}\left(\mathcal{F}(p^{*n})\right)(\frac{s}{\sqrt{n}})\quad Fourier\ Scaling\ Theorem\\
&=(\mathcal{F}(p^{*n}))(\frac{s}{\sqrt{n}})\\
&=(\mathcal{F} p)^n(\frac{s}{\sqrt{n}})\quad Fourier\ Convolution\ Theorem\\
&=\left(\int_{-\infty}^{\infty}e^{-2\pi i(\frac{s}{\sqrt{n}})x} p(x)dx\right)^n\\
&=\left(\int_{-\infty}^{\infty}\left(1-\frac{2\pi isx}{\sqrt{n}}+\frac{1}{2}\left(\frac{2\pi isx}{\sqrt{n}}\right)^2+...\right)p(x)dx\right)^n\quad Taylor \ Series\\
&=\left(\int_{-\infty}^{\infty}p(x)dx-\frac{2\pi is}{\sqrt{n}}\int_{-\infty}^{\infty}xp(x)dx-\frac{2\pi^2s^2}{n}\int_{-\infty}^{\infty}x^2p(x)dx+...\right)^n\\
&=\left(1-0-\frac{2\pi^2s^2}{n}+...\right)^n\\
&\approx\left(1-\frac{2\pi^2s^2}{n}\right)^n
\end{align*}$
當$n \to \infty$時,$\lim_{n\to \infty}\left(1-\frac{2\pi^2s^2}{n} \right)^n \approx e^{-2\pi^2s^2}$,即
$\mathcal{F}\left(\sqrt{n}(p^{*n})(\sqrt{n}x)\right) = e^{-2\pi^2s^2}$
用傅里葉逆變換求出
$p_{normal} = \mathcal{F}^{-1}(e^{-2\pi^2s^2}) = \frac{1}{\sqrt{2\pi}}e^{-\frac{x^2}{2}}$
因此得出結論:
當$n\to \infty$,$p_{normal}(x) = \frac{1}{\sqrt{2\pi}}e^{-\frac{x^2}{2}}$。
其中n可以理解為某個獨立隨機變量連續測量的次數,當測量次數足夠多時,其概率的密度函數會符合正態分布。這也就是我們所稱的中心極限定理。
二項分布是正態分布的一個特殊情況,正態分布的隨機變量是連續的,而二項分布的變量取值只有兩項,是離散的。二項分布在我們的日常生活中比較常見。用游戲抽卡來舉個例子,取值只有出貨或者沒出貨兩個。設n是某一個人抽卡的次數,如果$n \to \infty$,那么這個人抽卡出貨的情況,呈二項分布。簡而言之,假設有非常多的人在玩某個抽卡游戲,並且每個人的抽卡次數都非常多,那么大部分人抽卡的出貨量會分布在期望值的近兩側,即亞洲人,少部分人是歐洲人或者非洲人,這種出貨量的分布狀況呈二項分布。