什么是高斯分布與高斯分布的廣泛性
高斯分布, Gaussian Distribution, 也叫自然分布或正態分布,Natural Distribution。
從它的名字--natural distribution中也可以看出它的廣泛性:正常情況下, 你就應該是這個分布。
那么為什么到處都有它呢?概率論中的中心極限定理可以說明為什么:在客觀實際中有許多隨機變量, 它們是由大量的相互獨立的隨機因素的綜合影響所形成的。而每個隨機因素在總的影響中都是微小的。這些變量的分布往往可以用正態分布來逼近。 考慮到現實世界的復雜情況也就能理解自然分布的廣泛性了。它最先由高斯發現在1809年發現。
單元高斯分布
這里的單元不是指一個單元,兩個單元, 而是單變量的意思,single variet. 單變量正態分布的概率密度函數:\(\phi (x) = \frac {1}{\sqrt {2\pi}\sigma}e^{-\frac {(x-\mu)^2}{2\sigma^2}}\)
其中\(\mu, \sigma^2\)分別為\(x\)的期望與方差。知道這兩個參數后, 這個正態分布可以表示為$ N(\mu, \sigma^2)$.
由一個特殊的積分:
\(\mu\) 在這里就不再是一個標量了, 而是一個\(d\)維列向量;\(\Sigma\)是樣本的協方差矩陣, \(d\times d\). \(|\Sigma|\)與\(\Sigma^{-1}\)分別是它的行列式值與逆矩陣。一個多元高斯分布可以看作一個標准向量\(\mu\)受到自然污染后的取值的分布。
\(\Sigma\)的計算方式為:
- 均值化處理:從所有樣本向量中分別減去\(\mu\), 即 \(z = x - \mu\)
- \(Z\) 為所有 \(z\) 組成的\(m\times d\)矩陣
- \(\Sigma = Z^TZ\).
高斯分布的線性變換與投影
多個正態分布的線性組合可以形成新的線性分布。\(A\)為\(d\times k\)矩陣,\(Y = A^TX\)通過對多元正態分的隨機變量\(X\)進行線性變換得到一個新的正態分布隨機變量\(Y = N (A\mu, A^T\Sigma A)\). 若$k =1 $, 即 \(p = A\) 為一個\(d\) 維列向量, \(Y = p^TX\)代表將\(X\)往\(p\)所在的直線方向上進行投影。\(p^T\Sigma p\) 代表\(X\)在這個投影方向上的方差, 這個值越大, 代表原樣本集在這個方向上分散的越開。這一點在PCA算法中會使用到。