http://songshuhui.net/archives/76501
http://songshuhui.net/archives/77386
正態分布(Normal distribution)又名高斯分布(Gaussian distribution),是一個在數學、物理及工程等領域都非常重要的概率分布,在統計學的許多方面有着重大的影響力。
正態分布是自然科學與行為科學中的定量現象的一個方便模型。各種各樣的心理學測試分數和物理現象比如光子計數都被發現近似地服從正態分布。盡管這些現象的根本原因經常是未知的, 理論上可以證明如果把許多小作用加起來看做一個變量,那么這個變量服從正態分布(在R.N.Bracewell的Fourier transform and its application中可以找到一種簡單的證明)。正態分布出現在許多區域統計:例如, 采樣分布均值是近似地正態的,既使被采樣的樣本總體並不服從正態分布。另外,常態分布信息熵在所有的已知均值及方差的分布中最大,這使得它作為一種均值以及方差已知的分布的自然選擇。正態分布是在統計以及許多統計測試中最廣泛應用的一類分布。在概率論,正態分布是幾種連續以及離散分布的極限分布。
正態態分布最早是亞伯拉罕·棣莫弗在1734年發表的一篇關於二項分布文章中提出的。拉普拉斯在1812年發表的《分析概率論》(Theorie Analytique des Probabilites)中對棣莫佛的結論作了擴展。現在這一結論通常被稱為棣莫佛-拉普拉斯定理。
拉普拉斯在誤差分析試驗中使用了正態分布。勒讓德於1805年引入最小二乘法這一重要方法;而高斯則宣稱他早在1794年就使用了該方法,並通過假設誤差服從正態分布給出了嚴格的證明。
“鍾形曲線”這個名字可以追溯到Jouffret他在1872年首次提出這個術語"鍾形曲面",用來指代二元正態分布(bivariate normal)。正態分布這個名字還被Charles S. Peirce、Francis Galton、Wilhelm Lexis在1875分布獨立的使用。這個術語是不幸的,因為它反應和鼓勵了一種謬誤,即很多概率分布都是正態的。
正態分布的定義
概率密度函數
四個不同參數集的概率密度函數(紅色線代表標准正態分布)[圖1]
正態分布的概率密度函數,其中均值為\(\mu\) ,方差為\(\sigma^2\):
-
\[f(x;\mu,\sigma)=\frac{1}{\sqrt{2\pi}\sigma}exp^{-\frac{(x-\mu)^2}{2\sigma^2}}\]
如果一個隨機變量\(X\)服從這個分布,我們寫作\(X \sim N(\mu,\sigma^2)\) 如果\(\mu = 0\)並且\(\sigma = 1\),這個分布被稱為標准正態分布,這個分布能夠簡化為
\[f(x)=\frac{1}{\sqrt{2\pi}}exp^{-\frac{x^2}{2}}\]
x=-7:0.01:7; y=normpdf(x,0,1); plot(x,y,'-r'); grid on; hold on; plot(x,normpdf(x,0,0.6),'-b'); plot(x,normpdf(x,0,5.0),'-g'); plot(x,normpdf(x,-2,0.8),'-k'); legend('ex=0,var=1','ex=0,var=0.6','ex=0,var=5.0','ex=-2,var=1');
正態分布中一些值得注意的量:
- 密度函數關於均值對稱
- 均值是它的眾數(statistical mode)以及中位數(median)
- 函數曲線下68.268949%的面積在平均值左右的一個標准差范圍內
- 95.449974%的面積在均值左右兩個標准差2σ的范圍內
- 99.730020%的面積在均值左右三個標准差3σ的范圍內
- 99.993666%的面積在均值左右四個標准差4σ的范圍內
- 反曲點(inflection point)在離均值的距離為標准差之處
累積分布函數
x=-7:0.01:7; y=normcdf(x,0,1); plot(x,y,'-r'); grid on; hold on; plot(x,normcdf(x,0,0.6),'-b'); plot(x,normcdf(x,0,5.0),'-g'); plot(x,normcdf(x,-2,0.8),'-k'); legend('ex=0,var=1','ex=0,var=0.6','ex=0,var=5.0','ex=-2,var=1');
上圖所示的是概率密度函數的累積分布函數,累積分布函數是指隨機變量\(X\)小於或等於\(x\)的概率,用密度函數表示為
-
\[F(x;\mu,\sigma)=\frac{1}{\sqrt{2\pi}\sigma}\int_{-\infty}^xexp^{-\frac{(x-\mu)^2}{2\sigma^2}}dx\]
標准正態分布的累積分布函數習慣上記為\(\Phi\),它僅僅是指\(\mu = 0,\sigma = 1\)時的值
\[\Phi(x)=F(x;0,1)=\frac{1}{\sqrt{2\pi}}\int_{-\infty}^xexp^{-\frac{x^2}{2}}dx\]
正態分布的一些性質
- 如果\(X \sim N(\mu, \sigma^2)\)且\(a\)與\(b\)是實數,那么\(aX + b \sim N(a\mu + b,(a\sigma)^2)\)
- 如果\(X \sim N(\mu_X, \sigma_X^2)\)與\(Y \sim N(\mu_Y, \sigma_Y^2)\)是統計獨立的正態隨機變量,那么:
- 它們的和也滿足正態分布 . \(U=X+Y \sim N(\mu_X+\mu_Y, \sigma_X^2+\sigma_Y^2)\)
- 它們的差也滿足正態分布. \(U=X-Y \sim N(\mu_X-\mu_Y, \sigma_X^2+\sigma_Y^2)\)
- U與V兩者是相互獨立的。
- 期望:\(\mu\)
- 方差:\(\sigma^2\)


