常見的概率分布模型
離散概率分布函數
離散概率分布也稱為概率質量函數(probability mass function),離散概率分布的例子有
伯努利分布(Bernoulli distribution)
二項分布(binomial distribution)
泊松分布(Poisson distribution)
幾何分布(geometric distribution)等
連續概率分布函數
連續概率分布也稱為概率密度函數(probability density function),它們是具有連續取值(例如一條實線上的值)的函數,連續概率分布的例子有
正態分布(normal distribution)
指數分布(exponential distribution)
β分布(beta distribution)等
聯合分布函數
給定一個隨機變量\((X,Y)\),稱定義域為整個平面的二元實值函數
該二元實值函數為隨機變量\((X,Y)\)的分布函數,也可以稱為是\((X,Y)\)的聯合分布函數。
按照聯合分布函數的定義,\(F(x,y)=P((X,Y)\in{D_{xy}})\),其中\(D_{xy}\)如下圖所示
多項分布(Multinomial Distribution)
多項分布簡介
多項分布是二項分布的推廣,他們的區別是二項分布的結果只有\(0\)和\(1\)兩種,多項式的結果可以有多個值。
多項分布的典型例子是擲骰子,6個點對應6個不同的數,每個點的概率都為\({\frac{1}{6}}\)
與二項分布類似,多項分布來自於\((p_1+p_2+\cdots+p_k)^n多項式的展開\)
多項分布公式解析
以擲骰子為例,擲骰子的時候擲\(1-6\)的概率都為\({\frac{1}{6}}\),記作\(p_1-p_6\),可以發現\(p_1+p_2+p_3+p_4+p_5+p_6=1\),現在把\(p_1+p_2+p_3+p_4+p_5+p_6\)記作做一次抽樣各種事件發生的概率和,即可得\((p_1+p_2+p_3+p_4+p_5+p_6)^n=1^n\)為\(n\)次抽樣所有事件相互組合對應的概率和,之后使用多項式展開(注:使用多項式定理展開,由於多項式定理不在本節提及范圍內,不多贅述),如果它不是擲骰子,而是一個有\(n\)種可能的問題,會得到一個多項式展開的公式
這個多項式表示\(X_1\)出現\(x_1\)次,\(X_2\)出現\(x_2\)次,\(\ldots\),\(X_k\)出現\(x_k\)次的出現概率,這樣就得到了上述所示的多項分布的多項展開式公式。
伯努利分布(Bernoulli Distribution)
伯努利分布簡介
伯努利分布是一個二值離散分布,結果只有\(0\)和\(1\)兩種。
隨即變量\(X\)為\(1\)的概率為\(p\),則為\(0\)的概率為\(q=1-p\),可以用公式表示為
伯努利分布的期望值和方差
伯努利分布的期望值為
伯努利分布的方差為
正態(高斯)分布(Normal(Gaussian) Distribution)
正態分布的概率密度函數圖像
其中紅線表示的是標准正態分布圖像。
import numpy as np
import matplotlib.pyplot as plt
from scipy import stats
%matplotlib inline
mu1 = 0
sig1 = 1
mu2 = 0
sig2 = 2
x = np.arange(-5, 5, 0.1)
y1 = stats.norm.pdf(x, mu1, sig1)
y2 = stats.norm.pdf(x, mu2, sig2)
plt.plot(x, y1, 'r-', label='$\mu=0,\sigma^2=1$')
plt.plot(x, y2, 'b-', label='$\mu=0,\sigma^2=2$')
plt.legend()
plt.show()
正態分布簡介
正態分布也稱作高斯分布,是最常見的一種分布,其概率密度函數為
如果一個隨即變量\(X\)服從該分布,可以寫作\(X ~ { N(\mu ,\sigma ^{2})} N(\mu, \sigma^2)\)。
當\(\mu=0,\sigma=1\)時的正態分布稱作標准正態分布,這個分布能簡化為
標准正態分布曲線區間面積計算
中心極限定理與正態分布
- 中心極限定理1:把許多未知的小作用加起來看作一個變量,這個變量服從正態分布
- 中心極限定理2:“大量統計獨立的隨即變量的和”的分布趨於正態分布
泊松分布(Poisson Distribution)
泊松分布的概率質量函數圖像
import numpy as np
import matplotlib.pyplot as plt
from scipy import stats
%matplotlib inline
lambd = 2.5
x = np.arange(0, 10)
y = stats.poisson.pmf(x, lambd)
plt.plot(x, y, label='$\lambda=2.5$')
plt.legend()
plt.show()
二項分布(Binomial Distributio)
二項分布的概率質量函數圖像
import numpy as np
import matplotlib.pyplot as plt
from scipy import stats
%matplotlib inline
n = 8
p = 0.4
x = np.arange(0, 20)
y = stats.binom.pmf(x, n, p)
plt.plot(x, y, 'o-', label='$n=8,p=0.4$')
plt.legend()
plt.show()
二項分布簡介
二項分布是\(n\)次獨立的二值實驗(伯努利實驗)中成功的次數的離散值概率分布(\(n\)次伯努利實驗,一次伯努利實驗得到一個伯努利分布)。
隨機變量\(X\)服從參數\(n\)和\(p\)的二項分布記作:\(B(n,p)\)。\(n\)次實驗中\(k\)次成功的概率質量函數為
其中\(C_n^k\)是二項式系數:\(C_n^k = {\frac{n!}{k!(n-k)!}}\)
二項分布來源於牛頓二項式
二項分布與伯努利分布
- 二項分布的期望是伯努利分布期望的\(n\)倍
- 二項分布的方差是伯努利分布方差的\(n\)倍
貝塔分布(Beta Distribution)
貝塔分布的概率密度函數圖像
from scipy import stats
import matplotlib.pyplot as plt
import numpy as np
%matplotlib inline
a = 0.4
b = 0.6
x = np.arange(0.01, 1, 0.01)
y = stats.beta.pdf(x, a, b)
plt.plot(x, y, label='a=0.4,b=0.6')
plt.show()
幾何分布(負二項分布)(Geometric Distribution)
幾何分布概率質量函數圖像
狄利克雷分布(多項分布的共軛分布)(Dirichlet distribution)
超幾何分布(Hypergeometric Distribution)
指數分布(Exponential Distribution)
指數分布概率密度函數圖像
import numpy as np
import matplotlib.pyplot as plt
from scipy import stats
%matplotlib inline
lambd = 0.6
x = np.arange(0, 10, 0.1)
y = lambd * np.exp(-lambd*x)
plt.plot(x, y, label='$\lambda=0.6$')
plt.legend()
plt.show()