高斯分布


什么是高斯分布與高斯分布的廣泛性

高斯分布, Gaussian Distribution, 也叫自然分布或正態分布,Natural Distribution。
從它的名字--natural distribution中也可以看出它的廣泛性:正常情況下, 你就應該是這個分布。
那么為什么到處都有它呢?概率論中的中心極限定理可以說明為什么:在客觀實際中有許多隨機變量, 它們是由大量的相互獨立的隨機因素的綜合影響所形成的。而每個隨機因素在總的影響中都是微小的。這些變量的分布往往可以用正態分布來逼近。 考慮到現實世界的復雜情況也就能理解自然分布的廣泛性了。它最先由高斯發現在1809年發現。

單元高斯分布

這里的單元不是指一個單元,兩個單元, 而是單變量的意思,single variet. 單變量正態分布的概率密度函數:\(\phi (x) = \frac {1}{\sqrt {2\pi}\sigma}e^{-\frac {(x-\mu)^2}{2\sigma^2}}\)

其中\(\mu, \sigma^2\)分別為\(x\)的期望與方差。知道這兩個參數后, 這個正態分布可以表示為$ N(\mu, \sigma^2)$.

由一個特殊的積分:

\[ \int_{-\infty}^{+\infty} e^{-t^2}dt = \sqrt \pi$$. 令$t=\frac {x-\mu}{\sqrt 2 \sigma}$,$dt = \frac {1}{\sqrt 2 \sigma}dx$, 可以得到$$\int^{\infty}_{-\infty}\phi(x)dx = 1$$. 關於單元正態分布, 有兩個常用的性質: * $\mu$ 決定密度函數圖象的位置, $\sigma$ 決定它的形狀:$\sigma$ 越大, 圖象越胖。 * $3\sigma$ 規律: 正態分布中, 只有不到千分之二的元素分布在$[\mu-3\sigma,\mu+3\sigma]$之外, 為小概率事件, 基本不會發生。 # 多元高斯分布 多元高斯分布,即多變量高斯分布, Multivariet Gaussian Distribution. 樣本值是一個多維列向量$X=(x_1, x_2, \dots, x_d)^T$, 每一個單獨的元素都服從各自的正態分布。它的概率密度函數為: $$P(X) = \frac {1} {(2\pi)^{\frac 1d} |\Sigma|^\frac 12} e ^ {-\frac{(x-\mu)^T \Sigma^{-1}(x-\mu)}{2}}\]

\(\mu\) 在這里就不再是一個標量了, 而是一個\(d\)維列向量;\(\Sigma\)是樣本的協方差矩陣, \(d\times d\). \(|\Sigma|\)\(\Sigma^{-1}\)分別是它的行列式值與逆矩陣。一個多元高斯分布可以看作一個標准向量\(\mu\)受到自然污染后的取值的分布

\(\Sigma\)的計算方式為:

  • 均值化處理:從所有樣本向量中分別減去\(\mu\), 即 \(z = x - \mu\)
  • \(Z\) 為所有 \(z\) 組成的\(m\times d\)矩陣
  • \(\Sigma = Z^TZ\).

高斯分布的線性變換與投影

多個正態分布的線性組合可以形成新的線性分布。\(A\)\(d\times k\)矩陣,\(Y = A^TX\)通過對多元正態分的隨機變量\(X\)進行線性變換得到一個新的正態分布隨機變量\(Y = N (A\mu, A^T\Sigma A)\). 若$k =1 $, 即 \(p = A\) 為一個\(d\) 維列向量, \(Y = p^TX\)代表將\(X\)\(p\)所在的直線方向上進行投影。\(p^T\Sigma p\) 代表\(X\)在這個投影方向上的方差, 這個值越大, 代表原樣本集在這個方向上分散的越開。這一點在PCA算法中會使用到。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM