一、概率密度函數
概率密度函數用於描述連續隨機變量的概率分布,離散型分布中我們通常關注隨機變量X取特定值時的概率,在連續型分布中關注X在某數值范圍內對應概率。
連續隨機變量的概率通過概率密度函數面積表示。對於任何概率分布來說,總概率必須等於1,因此面積必須等於1。
二、正態分布-連續數據的“理想”模型
1. 定義
正態分布通常參數均值𝓊和方差𝜎2 進行定義。𝓊指出分布的中央位置,𝜎指出分散性。
如果一個連續隨機變量X符合均值為𝓊、標准差為𝜎的正態分布,通常寫作:
![]()
2. 性質

正態分布具有鍾型曲線,曲線對稱,中間部位的概率密度最大。越是偏離均值,概率密度減小,𝜎越大,正態分布曲線越扁平、越寬。
無論圖形怎樣,概率密度永遠不等於0。
3. 標准正態分布 Z~N(0,1)
標准正態分布是符合均值為0,標准差為1的正態分布。
當需要計算正態分布對應概率的時,計算曲線下面積太過復雜,因此需要將正態分布轉化為標准正態分布,通過概率表查找概率。
若X~N(𝓊,𝜎2)
通過標准分變換

則 Z~N(0,1)。
通過在概率表中查找標准分可求出正態概率,概率表給出的是小於等於這個數值的概率。
三、正態分布應用
1. 線性變換
正態分布的線性變換跟離散變量線性變換一致。
E(aX+b) = aE(X)+b Var(aX+b) = a2Var(X)
若X符合正態分布 X~N(𝓊,𝜎2) ,線性變換aX+b也屬於正態分布。
E(X) = 𝓊 ,E(aX+b) = a𝓊+b
Var(X) = 𝜎2 ,Var(aX+b) = a2𝜎2
所以:aX+b ~ N(a𝓊+b,a2𝜎2 )
2. 獨立觀察值(可看作概率分布完全相同的獨立隨機變量)
在離散隨機變量中,對於獨立觀察值:
E(X1 + X2 + ... +Xn) = nE(X) Var(X1 + X2 + ... +Xn) = nVar(X)
同樣,相同算法適用於連續隨機變量,即,如果X符合正態分布 X~N(𝓊,𝜎2)
X1 + X2 + ... +Xn ~ N(n𝓊 ,n𝜎2)。
3. 使用正態分布近似替代二項分布
在離散分布中,我們常用泊松分布近似替代二項分布,以簡便計算,當二項分布期望近似等於方差時,即 當q近似等於1且n很大時,np 近似等於npq,泊松分布可近似等於二項分布。
但在某些情況下,我們需要計算某個范圍內的概率,這時常用正態分布近似替代二項分布。
通常若二項分布中np和nq雙雙大於5時,二項分布與正態分布相似。

所以,如果X ~ B(n,p),且np>5,nq>5,則可以使用X ~ N(np,npq)近似代替二項分布。
注意:由於二項分布是離散分布,正態分布則是連續分布,在使用正態分布代替二項分布計算概率時,需要進行連續性修正,確保得到正確的結果。
4. 使用正態分布近似代替泊松分布
當X ~ Po(𝜆) ,隨着𝜆變大,泊松分布越來越接近正態分布,即可使用正態分布近似代替泊松分布。
當𝜆大於15時。即若X ~ Po(𝜆)且𝜆>15,我們就能使用X ~ N(𝜆,𝜆) 近似計算 X ~ Po(𝜆)。
同樣,為保證結果准確,在正態分布中,需要進行連續性修正。
2020-05-06 17:36
