正態分布(從1維到n維)


1. 一維正態分布

   連續型隨機變量 $X$,它的數學期望為 $\mu$,方差為 $\sigma^{2}$,如果它的概率密度滿足

$$f(x) = \frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^{2}}{2\sigma^{2}}}, \; -\infty < x < +\infty$$

   則稱 $X$ 服從參數為 $(\mu, \sigma)$ 的正態分布,記為 $X \sim N(\mu, \sigma)$。

   從這個概率密度的式子中可以看出,正態分布只依賴於總體的兩個特征:均值和方差。概率密度的圖像長成下面這個樣子:

       

   橫坐標 $x$ 關於直線 $y=\mu$ 對稱的坐標是 $2\mu - x$,將 $2\mu-x$ 代入概率密度函數有

$$f(2\mu-x) = \frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(2\mu-x-\mu)^{2}}{2\sigma^{2}}} = f(x)$$

   所以函數 $f(x)$ 關於直線 $y=\mu$ 對稱。

   要想證明這個概率密度函數在 $(-\infty, +\infty)$ 上積分為 $1$,需要先證明下面這個積分:

$$\int_{0}^{+\infty}e^{-x^{2}}dx = \frac{\sqrt{\pi}}{2}$$

   證明:

$$\left (\int_{0}^{+\infty}e^{-x^{2}}dx \right )^{2} = \int_{0}^{+\infty}e^{-x^{2}}dx \cdot \int_{0}^{+\infty}e^{-y^{2}}dx \\
= \int_{0}^{+\infty}dx\int_{0}^{+\infty}e^{-\left (x^{2} + y^{2} \right )}dx \\
= \iint_{0 \leq x,y < +\infty}^{}e^{-\left (x^{2} + y^{2} \right )}dxdy \\
= \int_{0}^{\frac{\pi}{2}}d\theta \int_{0}^{+\infty}e^{-r^{2}}rdr = \frac{\pi}{4}$$
 

   證畢

   利用上面這個結論可以得到: 

$$\int_{-\infty}^{+\infty}\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^{2}}{2\sigma^{2}}} = 1$$

   也就是說 $f(x)$ 圖像和 $x$ 軸所圍成的面積為 $1$,因為

$$f(\mu) = \frac{1}{\sqrt{2\pi}\sigma}$$

   所以,$\sigma$ 越小,$f(\mu)$ 越大,但由於面積恆定為 $1$,所以圖像會往內收縮,表現為數據越集中,這和方差的性質是契合的,即:

   $\sigma$ 描述正態分布資料數據分布的離散程度,$\sigma$ 越大,數據分布越分散,$\sigma$ 越小,數據分布越集中。也稱為是正態分布的形狀參數,

   $\sigma$ 越大,曲線越扁平,反之,$\sigma$ 越小,曲線越瘦高。

   令 $Y = \frac{X-\mu}{\sigma}$,我們來研究一下隨機變量 $Y$ 滿足什么分布。

$$F_{Y}(y) = P(Y \leq y) = P\left ( \frac{X-\mu}{\sigma} \leq y\right ) \\
= P\left ( X \leq \sigma y + \mu \right ) \\
= F_{X}(\sigma y + \mu)$$

   所以

$$f(y) = F_{Y}^{'}(y) = \sigma F_{X}^{'}(\sigma y + \mu) \\
= \frac{1}{\sqrt{2\pi}}e^{-\frac{y^{2}}{2}}$$

   於是有:$Y \sim N(0, 1)$

 

2. $n$ 維正態分布

   隨機變量序列 $X=(X_1,X_2,...,X_n)^T$,設 $\mu=(\mu_1,\mu_2,...,\mu_n)^T$,$\sigma = (\sigma_1,\sigma_2,...,\sigma_n)^{T}$,則協方差矩陣為

$$Cov(X) = \begin{bmatrix}
cov(X_1,X_1) & cov(X_1,X_2) & \cdots & cov(X_1,X_n) \\ 
cov(X_2,X_1) & cov(X_2,X_2) & \cdots & cov(X_2,X_n)\\ 
\vdots & \vdots & \cdots & \vdots \\ 
cov(X_n,X_1) & cov(X_n,X_2) & \cdots & cov(X_n,X_n) 
\end{bmatrix} = \begin{bmatrix}
\sigma_1^2 & cov(X_1,X_2) & \cdots & cov(X_1,X_n) \\ 
cov(X_2,X_1) & \sigma_2^2 & \cdots & cov(X_2,X_n)\\ 
\vdots & \vdots & \cdots & \vdots \\ 
cov(X_n,X_1) & cov(X_n,X_2) & \cdots & \sigma_n^2 
\end{bmatrix}$$

   如果 $X$ 的概率密度滿足

$$f(X) = \frac{1}{\sqrt{(2\pi)^n \cdot det(Cov(X))}}e^{-\frac{1}{2}(X-\mu)^{T}Cov^{-1}\;(X)(X-\mu)}$$

   則稱 $X$ 服從 $n$ 維正態分布,只要 $n$ 維隨機變量滿足正態分布,它就有如下性質:

   1)每個分量 $X_i$ 服從一維正態分布,即 $X_i \sim N(\mu_i,\sigma_i^2)$。

   2)$X_1,X_2,...,X_n$ 的任意非 $0$ 線性組合服從正態分布,即

$$k_1^{2} + k_2^{2} + \cdots + k_n^{2} \neq 0 \\
\Rightarrow k_1X_1 + k_2X_2 + \cdots + k_nX_n \sim N$$

   接下來來看二維正態分布,即 $n=2$,首先寫出協方差矩陣:

$$Cov(X) = \begin{bmatrix}
\sigma_1^2 & cov(X_1,X_2) \\
cov(X_2,X_1) & \sigma_2^2 
\end{bmatrix} = \begin{bmatrix}
\sigma_1^2 & \rho \sigma_1\sigma_2 \\
\rho \sigma_1\sigma_2 & \sigma_2^2 
\end{bmatrix}$$

   其逆矩陣為

$$Cov^{-1} \; (X) = \frac{1}{\left ( 1-\rho^2 \right 
)\sigma_1^2\sigma_2^2}\begin{bmatrix}
\sigma_2^2 & -\rho \sigma_1\sigma_2 \\
-\rho \sigma_1\sigma_2 & \sigma_1^2 
\end{bmatrix}$$

   取行列式得

$$det(X) = \sigma_1^2\sigma_2^2 - \rho^2 \sigma_1^2\sigma_2^2 = \left ( 1-\rho^2 \right 
)\sigma_1^2\sigma_2^2$$

   所以

$$f(X_1,X_2) = \frac{1}{2\pi\sigma_1\sigma_2\sqrt{1-\rho^2}}exp\left \{ -\frac{1}{2\left ( 1-\rho^2 \right 
)}\left [ \frac{(X_1-\mu_1)^{2}}{\sigma_1^2} - \frac{2\rho(X_1-\mu_1)(X_2-\mu_2)}{\sigma_1\sigma_2} +
\frac{(X_2-\mu_2)^{2}}{\sigma_2^2} \right ] \right \}$$


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM