正態分布及標准化


正態分布】(Normal distribution),也稱“常態分布”,又名高斯分布(Gaussian distribution)

正態曲線呈鍾型,兩頭低,中間高,左右對稱因其曲線呈鍾形,因此人們又經常稱之為鍾形曲線

當μ = 0,σ = 1時的正態分布是標准正態分布

正態分布有兩個參數,即期望(均數)μ 和 標准差σ,σ2為方差。

μ是正態分布的位置參數,描述正態分布的集中趨勢位置。概率規律為取與μ鄰近的值的概率大,而取離μ越遠的值的概率越小。正態分布以X=μ為對稱軸,左右完全對稱。正態分布的期望、均數中位數、眾數相同,均等於μ。

σ(標准差)描述正態分布資料數據分布的離散程度,σ越大,數據分布越分散,σ越小,數據分布越集中。也稱為是正態分布的形狀參數,σ越大,曲線越扁平,反之,σ越小,曲線越瘦高。

一個標准差 68%, 兩個標准差 95%, 三個標准差 99%。

 

高斯分布怎么來的,很簡單。只要所觀察的系統里,各種對象之間關聯很弱(相互獨立?),那么他們的總和平均表現,根據中心極限定律,就是高斯或者近高斯的。

高斯分布的信息熵最大。即,高斯分布是最混亂系統。

自然界最多的不是正態(高斯)分布,而是長尾(冪律等)分布。

 

中心極限定理】——如果一個指標受到若干獨立的因素的共同影響,且每個因素不能產生支配性的影響(Lindeberg 條件),那么這個指標就服從中心極限定理,收斂到正態分布,這就是林德伯格-費勒中心極限定理的意思。

 

很多個因素獨立同分布並且可以疊加,那么疊加結果就會接近正態分布。我看的參考書上把這個叫做中心極限定理。

 

我們人造的東西,很多都是模塊化的,比如汽車輪船飛機,桌子椅子板凳,等等。我們人類造東西,都是“搭”出來的,一個模塊和另一個模塊之間關聯很弱,壞了一個模塊換掉就好。所以人造系統,其表現,包括性能啊,噪聲啊,穩定度啊,都基於高斯分布。

 

誤差分布導出的極大似然估計 = 算術平均值

正態標准化

假設我們有一個X向量,x(i,j),i = 1,..,m;j = 1,..,n。z_score規范化如下:

x(i,j)' = [x(i,j) - E(j)] / S[j],即x(i,j) 減去第j列的均值再除以第j列的標准差

這樣處理之后,原數據就變成了均值為0,方差為1,記作:

X' = [X - E(X)] / S(X),其中,E(X) = 0, S(X) = 1。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM