正態分布是連續型隨機變量概率分布中的一種,你幾乎能在各行各業中看到他的身影,自然界中某地多年統計的年降雪量、人類社會中比如某地高三男生平均身高、教育領域中的某地區高考成績、信號系統中的噪音信號等,大量自然、社會現象均按正態形式分布。
正態分布中有兩個參數,一個是隨機變量的均值 μμ,另一個是隨機變量的標准差 σσ,他的概率密度函數 PDF 為:fX(x)=1√2πσe−(x−μ)2/(2σ2)fX(x)=12πσe−(x−μ)2/(2σ2)。
當我們指定不同的均值和標准差參數后,就能得到不同正態分布的概率密度曲線,正態分布的概率密度曲線形狀都是類似的,他們都是關於均值 μμ 對稱的鍾形曲線,概率密度曲線在離開均值區域后,呈現出快速的下降形態。
這里,我們不得不專門提一句,當均值 μ=0μ=0,標准差 σ=1σ=1 時,我們稱之為標准正態分布。
還是老規矩,眼見為實,下面來觀察兩組正態分布的概率密度函數取值,一組是均值為 00,標准差為 11 的標准正態分布。另一組,我們取均值為 11,標准差為 22。
代碼片段:
from scipy.stats import norm
import matplotlib.pyplot as plt
import numpy as np
import seaborn
seaborn.set()
fig, ax = plt.subplots(1, 1)
norm_0 = norm(loc=0, scale=1)
norm_1 = norm(loc=1, scale=2)
x = np.linspace(-10, 10, 1000)
ax.plot(x, norm_0.pdf(x), color='red', lw=5, alpha=0.6, label='loc=0, scale=1')
ax.plot(x, norm_1.pdf(x), color='blue', lw=5, alpha=0.6, label='loc=1, scale=2')
ax.legend(loc='best', frameon=False)
plt.show()