正態分布（從1維到n維）

本文轉載自查看原文 2020-12-05 14:29 793 Math

1. 一維正態分布

連續型隨機變量 $X$，它的數學期望為 $\mu$，方差為 $\sigma^{2}$，如果它的概率密度滿足

$$f(x) = \frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^{2}}{2\sigma^{2}}}, \; -\infty < x < +\infty$$

則稱 $X$ 服從參數為 $(\mu, \sigma)$ 的正態分布，記為 $X \sim N(\mu, \sigma)$。

從這個概率密度的式子中可以看出，正態分布只依賴於總體的兩個特征：均值和方差。概率密度的圖像長成下面這個樣子：

橫坐標 $x$ 關於直線 $y=\mu$ 對稱的坐標是 $2\mu - x$，將 $2\mu-x$ 代入概率密度函數有

$$f(2\mu-x) = \frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(2\mu-x-\mu)^{2}}{2\sigma^{2}}} = f(x)$$

所以函數 $f(x)$ 關於直線 $y=\mu$ 對稱。

要想證明這個概率密度函數在 $(-\infty, +\infty)$ 上積分為 $1$，需要先證明下面這個積分：

$$\int_{0}^{+\infty}e^{-x^{2}}dx = \frac{\sqrt{\pi}}{2}$$

證明：

$$\left (\int_{0}^{+\infty}e^{-x^{2}}dx \right )^{2} = \int_{0}^{+\infty}e^{-x^{2}}dx \cdot \int_{0}^{+\infty}e^{-y^{2}}dx \\
= \int_{0}^{+\infty}dx\int_{0}^{+\infty}e^{-\left (x^{2} + y^{2} \right )}dx \\
= \iint_{0 \leq x,y < +\infty}^{}e^{-\left (x^{2} + y^{2} \right )}dxdy \\
= \int_{0}^{\frac{\pi}{2}}d\theta \int_{0}^{+\infty}e^{-r^{2}}rdr = \frac{\pi}{4}$$

證畢

利用上面這個結論可以得到：

$$\int_{-\infty}^{+\infty}\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^{2}}{2\sigma^{2}}} = 1$$

也就是說 $f(x)$ 圖像和 $x$ 軸所圍成的面積為 $1$，因為

$$f(\mu) = \frac{1}{\sqrt{2\pi}\sigma}$$

所以，$\sigma$ 越小，$f(\mu)$ 越大，但由於面積恆定為 $1$，所以圖像會往內收縮，表現為數據越集中，這和方差的性質是契合的，即：

$\sigma$ 描述正態分布資料數據分布的離散程度，$\sigma$ 越大，數據分布越分散，$\sigma$ 越小，數據分布越集中。也稱為是正態分布的形狀參數，

$\sigma$ 越大，曲線越扁平，反之，$\sigma$ 越小，曲線越瘦高。

令 $Y = \frac{X-\mu}{\sigma}$，我們來研究一下隨機變量 $Y$ 滿足什么分布。

$$F_{Y}(y) = P(Y \leq y) = P\left ( \frac{X-\mu}{\sigma} \leq y\right ) \\
= P\left ( X \leq \sigma y + \mu \right ) \\
= F_{X}(\sigma y + \mu)$$

所以

$$f(y) = F_{Y}^{'}(y) = \sigma F_{X}^{'}(\sigma y + \mu) \\
= \frac{1}{\sqrt{2\pi}}e^{-\frac{y^{2}}{2}}$$

於是有：$Y \sim N(0, 1)$

2. $n$ 維正態分布

隨機變量序列 $X=(X_1,X_2,...,X_n)^T$，設 $\mu=(\mu_1,\mu_2,...,\mu_n)^T$，$\sigma = (\sigma_1,\sigma_2,...,\sigma_n)^{T}$，則協方差矩陣為

$$Cov(X) = \begin{bmatrix}
cov(X_1,X_1) & cov(X_1,X_2) & \cdots & cov(X_1,X_n) \\
cov(X_2,X_1) & cov(X_2,X_2) & \cdots & cov(X_2,X_n)\\
\vdots & \vdots & \cdots & \vdots \\
cov(X_n,X_1) & cov(X_n,X_2) & \cdots & cov(X_n,X_n)
\end{bmatrix} = \begin{bmatrix}
\sigma_1^2 & cov(X_1,X_2) & \cdots & cov(X_1,X_n) \\
cov(X_2,X_1) & \sigma_2^2 & \cdots & cov(X_2,X_n)\\
\vdots & \vdots & \cdots & \vdots \\
cov(X_n,X_1) & cov(X_n,X_2) & \cdots & \sigma_n^2
\end{bmatrix}$$

如果 $X$ 的概率密度滿足

$$f(X) = \frac{1}{\sqrt{(2\pi)^n \cdot det(Cov(X))}}e^{-\frac{1}{2}(X-\mu)^{T}Cov^{-1}\;(X)(X-\mu)}$$

則稱 $X$ 服從 $n$ 維正態分布，只要 $n$ 維隨機變量滿足正態分布，它就有如下性質：

1）每個分量 $X_i$ 服從一維正態分布，即 $X_i \sim N(\mu_i,\sigma_i^2)$。

2）$X_1,X_2,...,X_n$ 的任意非 $0$ 線性組合服從正態分布，即

$$k_1^{2} + k_2^{2} + \cdots + k_n^{2} \neq 0 \\
\Rightarrow k_1X_1 + k_2X_2 + \cdots + k_nX_n \sim N$$

接下來來看二維正態分布，即 $n=2$，首先寫出協方差矩陣：

$$Cov(X) = \begin{bmatrix}
\sigma_1^2 & cov(X_1,X_2) \\
cov(X_2,X_1) & \sigma_2^2
\end{bmatrix} = \begin{bmatrix}
\sigma_1^2 & \rho \sigma_1\sigma_2 \\
\rho \sigma_1\sigma_2 & \sigma_2^2
\end{bmatrix}$$

其逆矩陣為

$$Cov^{-1} \; (X) = \frac{1}{\left ( 1-\rho^2 \right
)\sigma_1^2\sigma_2^2}\begin{bmatrix}
\sigma_2^2 & -\rho \sigma_1\sigma_2 \\
-\rho \sigma_1\sigma_2 & \sigma_1^2
\end{bmatrix}$$

取行列式得

$$det(X) = \sigma_1^2\sigma_2^2 - \rho^2 \sigma_1^2\sigma_2^2 = \left ( 1-\rho^2 \right
)\sigma_1^2\sigma_2^2$$

所以

$$f(X_1,X_2) = \frac{1}{2\pi\sigma_1\sigma_2\sqrt{1-\rho^2}}exp\left \{ -\frac{1}{2\left ( 1-\rho^2 \right
)}\left [ \frac{(X_1-\mu_1)^{2}}{\sigma_1^2} - \frac{2\rho(X_1-\mu_1)(X_2-\mu_2)}{\sigma_1\sigma_2} +
\frac{(X_2-\mu_2)^{2}}{\sigma_2^2} \right ] \right \}$$

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 python二維正態分布使用numpy生成二維正態分布【筆記】二維正態分布的聯合密度函數圖概率筆記11——一維正態分布的最大似然估計 matlab:畫二維正態分布密度函數圖 Python 生成均值為2 ，標准差為3 的一維正態分布樣本500 【概率論】5-10:二維正態分布(The Bivariate Normal Distributions) 4.n維向量空間關於n維和n-1維歐式空間正態分布