【正態分布】(Normal distribution),也稱“常態分布”,又名高斯分布(Gaussian distribution)
正態曲線呈鍾型,兩頭低,中間高,左右對稱因其曲線呈鍾形,因此人們又經常稱之為鍾形曲線。
當μ = 0,σ = 1時的正態分布是標准正態分布。
正態分布有兩個參數,即期望(均數)μ 和 標准差σ,σ2為方差。
μ是正態分布的位置參數,描述正態分布的集中趨勢位置。概率規律為取與μ鄰近的值的概率大,而取離μ越遠的值的概率越小。正態分布以X=μ為對稱軸,左右完全對稱。正態分布的期望、均數、中位數、眾數相同,均等於μ。
σ(標准差)描述正態分布資料數據分布的離散程度,σ越大,數據分布越分散,σ越小,數據分布越集中。也稱為是正態分布的形狀參數,σ越大,曲線越扁平,反之,σ越小,曲線越瘦高。
一個標准差 68%, 兩個標准差 95%, 三個標准差 99%。
高斯分布怎么來的,很簡單。只要所觀察的系統里,各種對象之間關聯很弱(相互獨立?),那么他們的總和平均表現,根據中心極限定律,就是高斯或者近高斯的。
高斯分布的信息熵最大。即,高斯分布是最混亂系統。
自然界最多的不是正態(高斯)分布,而是長尾(冪律等)分布。
【中心極限定理】——如果一個指標受到若干獨立的因素的共同影響,且每個因素不能產生支配性的影響(Lindeberg 條件),那么這個指標就服從中心極限定理,收斂到正態分布,這就是林德伯格-費勒中心極限定理的意思。
很多個因素獨立同分布並且可以疊加,那么疊加結果就會接近正態分布。我看的參考書上把這個叫做中心極限定理。
我們人造的東西,很多都是模塊化的,比如汽車輪船飛機,桌子椅子板凳,等等。我們人類造東西,都是“搭”出來的,一個模塊和另一個模塊之間關聯很弱,壞了一個模塊換掉就好。所以人造系統,其表現,包括性能啊,噪聲啊,穩定度啊,都基於高斯分布。
誤差分布導出的極大似然估計 = 算術平均值
【正態標准化】
假設我們有一個X向量,x(i,j),i = 1,..,m;j = 1,..,n。z_score規范化如下:
x(i,j)' = [x(i,j) - E(j)] / S[j],即x(i,j) 減去第j列的均值再除以第j列的標准差。
這樣處理之后,原數據就變成了均值為0,方差為1,記作:
X' = [X - E(X)] / S(X),其中,E(X) = 0, S(X) = 1。