概率分布


期望

介紹各個分布之前先給出期望的定義。如果$\int_{-\infty}^{\infty}|x|f(x)dx<\infty$,那么$E(x)=\int_{-\infty}^{\infty}xf(x)dx$;如果積分發散,則期望不存在(無意義)。

函數的期望。如果$Y=g(X)$,對於離散變量$E(Y)=\sum_x{g(x)p(x)}$,對於連續變量$E(Y)=\int_{-\infty}^{\infty}g(x)f(x)dx$。注意函數的期望不一定等於期望的函數,即$E[g(x)]\ne{g[E(x)]}$。如果X和Y是相互獨立的隨機變量,g和h是固定的函數,那么\begin{equation}E[g(X)h(Y)]=E[g(X)]E[h(Y)],\;if\;g(X)和h(Y)的期望存在\label{exp_two}\end{equation}作為公式$\eqref{exp_two}$的特例,$E(XY)=E(X)E(Y)$。

方差是一種特殊的期望\begin{equation}Var(X)=E{[X-E(X)]^2}=E(X^2)-[E(X)]^2\label{var}\end{equation}

對\ref{var}式作一下說明,由於$E(x)$已經是常數,常數的期望是它本身,所以$E(E(x))=E(x)$

伯努利分布

伯努利隨機變量的取值只有兩個:0和1。 \begin{equation}p(1)=p\label{bernolli}\end{equation}

二項分布

令$x_1,x_2,...,x_n$是相互獨立的伯努得隨機變量,那么\begin{equation}y=x_1+x_2+...+x_n\label{binomial}\end{equation}是一個二項隨機變量。\begin{equation}p(y=k)={n \choose k}p^k(1-p)^{n-k}\label{binomial=k}\end{equation}其中$p$就是公式\eqref{bernolli}中的$p$,所以公式\eqref{bernolli}表示一次試驗成功的概率,而公式\eqref{binomial=k}表示k次試驗成功的概率。

多項分布

二項分布每次實驗結果只有2種,如果有多種那就變成了多項分布。設一共有r種結果,每種結果出現的概率依次是$p_1,p_2,...p_r$,進行發n次實驗,第i種結果出現的次數為$n_i$,這樣的概率是\begin{equation}p(n_1,n_2,\cdots{n_r})=\frac{n!}{n_1!n_2!\cdots{n_r!}}p_1^{n_1}p_2^{n_2}\cdots{p_r^{n_r}}\label{multinomial}\end{equation}n個對象分成r個類別,第i類有$n_i$個對象,這種分類方式共有\begin{equation}\frac{n!}{n_1!n_2!\cdots{n_r!}}\end{equation}種,這個式子正是多項系數\begin{equation}(X_1+X_2+\cdots+X_r)^n=\sum{(\frac{n!}{n_1!n_2!\cdots{n_r!}})X_1^{n_1}X_2^{n_2}\cdots{X_r^{n_r}}}\end{equation}

幾何分布

連續若干次相互獨立的伯努利試驗,第g次才成功。則\begin{equation}p(g=k)=(1-p)^{k-1}p\label{geometric}\end{equation}期望是$\frac{1}{p}$

負二項分布

負二項分布是幾何分布的一般化。連續若干次相互獨立的伯努利試驗,直到成功了r次為止,共進行了k次試驗。\begin{equation}p(n=k)={k-1 \choose r-1}p^{r-1}(1-p)^{k-r}p\label{negative_binomial}\end{equation}負二項分布也可以看成是r次獨立的幾何隨機變量的和:第1次成功時經歷的試驗次數$g_1$加上第1次成功后第2次成功又經歷的試驗次數$g_2$加上……所以\begin{equation}n=g_1+g_2+...+g_r\end{equation}

超幾何分布

共有n個球,其中黑球r個,白球n-r個。從中取出m個球,X表示抽到黑球的個數。\begin{equation}p(X=k)=\frac{{r \choose k}{n-r \choose m-k}}{n \choose m}\label{hyper_geometric}\end{equation}在估計野生動物數量時經常采用標記重捕法:捕獲r只動物,將它們作上標記后釋放。這之后再捕獲m個動物,發現其中有k個帶有標記,請估計動物的總數n。這里我們采用極大似然估計法,它將使觀測結果出現可能性最大的n作為其估計值。根據超幾何分布我們知道出現觀測結果的概率為$$L_n=\frac{{r \choose k}{n-r \choose m-k}}{n \choose m}$$"顯然易見”,該似然函數隨着n的增長先單調上長再單調下降,為求得似然函數的極大值點很容易想到的是令一階導數為0。然而一階導數並不好求,我們轉把似然函數轉換成對數函數后再來求一階導數,不幸的是這種方法仍然不便於計算。我們考慮似然函數的連續項比值$$\frac{L_n}{L_{n-1}}=\frac{(n-m)(n-r)}{n(n+k-m-r)}$$該比值項為1時似然函數取得最大值,得$$n=\frac{rm}{k}$$

自然常數e

下面的幾種概率密度函數中都包含e,所以我們先來剖析一下e到底是什么。

自然常數e和圓周率$\pi$是常見的超越數。

來看幾個跟e有關的公式。

\begin{equation}e=\lim_{x\rightarrow\infty}{(1+\frac{1}{x})^x}\label{e}\end{equation}

\begin{equation}e=\sum_{x=0}^{\infty}{\frac{1}{x!}}\end{equation}

\begin{equation}(a^x)'=a^xlna\end{equation}

\begin{equation}(log_{a}{x})'=\frac{log_{a}{e}}{x}\end{equation}

利用公式\eqref{e}我們來具體說下e到底是什么。假設一個細胞經過1個單位時間分裂成兩個細胞。即經過1個單位時間后細胞數目比原先多了1倍,經過1/2個單位時間后細胞數目比原先多了1/2倍,經過1/3個單位時間后細胞數目比原先多了1/3倍,經過1/n個單位時間后細胞數目比原先多了1/n倍。則我們用下面的公式計算單位時間后的細胞數目是當前的幾倍:

$(1+\frac{1}{1})^1$

現在假設一個細胞還是需要1個單位時間才能分裂成兩個細胞,只是經過1/2單位時間后,正在分裂中的細胞又開始新的分裂過程。1個單位時間可以分成前后兩個階段,每個階段末的細胞數目都是階段初的$1+\frac{1}{2}$倍。我們用下面的公式計算單位時間后的細胞數目是當前的幾倍:

$(1+\frac{1}{2})^2$

如果經過1/n個單位時間后細胞就具有分裂能力,則我們用下面的公式計算單位時間后的細胞數目是當前的幾倍:

\begin{equation}(1+\frac{1}{n})^n\label{e_lim}\end{equation}

當細胞具有分裂能力的時間間隔足夠短,即$n\rightarrow\infty$時,公式\eqref{e_lim}就等於e。由此得出:e是單位時間內持續的翻番增長所能達到的極限值。

泊松分布

當滿足以下前提條件時,泊松變量表示單位時間內發生的次數。

  1. 不同子區間內了生與否相互獨立
  2. 每個子區間發生的概率相同
  3. 事件不會同時發生

\begin{equation}P(X=k)=\frac{\lambda^k}{k!}e^{-\lambda},k=0,1,2......\label{poisson}\end{equation}注意到\begin{equation}e^{\lambda}=\sum_{k=0}^{\infty}{\frac{\lambda^k}{k!}}\end{equation}

泊松分布的期望和方差都是$\lambda$。

泊松過程:$S_1,S_2,...S_N$是S的互不相交的子集,這些子集上發生的事件數$N_1,N_2,...N_3$是相互獨立的隨機變量,且服從參數為$\lambda|S_1|,\lambda|S_2|...\lambda|S_N|$的泊松分布,即期望與區間大小成正比例。

如果X服從參數為$\lambda$的泊松分布,Y服從參數為$\mu$的泊松分布,且X和Y相互獨立,那么X+Y服從參數為$\lambda+\mu$的泊松分布。

$Poisson(\lambda)$分布可以看成是二項分布$B(n,p)$在$np=\lambda,n\rightarrow\infty$條件下的極限分布。

指數分布

指數分布常用來描述生命周期或等待時間,變量一般用t表示。

密度函數$f(t)=\begin{cases}\lambda{e}^{-\lambda{t}},&\mathrm{if}\;t\ge{0}\\0,&\mathrm{if}\;t<0\end{cases}$

$\lambda$越大,密度函數下降得越快。

密度積累函數$F(t)=P(T<t)=1-e^{-\lambda{t}}$,即\begin{equation}P(T>t)=e^{-\lambda{t}}\label{power}\end{equation}一般地,泊松過程兩次事件發生的時間間隔是獨立同分布的指數隨機變量。這里我們可以簡單推導一下,令泊松過程兩次事件發生的時間間隔是T,$P(T>t)=P((t_0,t_0+t)內沒有事件發生)$,因為在長度為$(t_0,t_0+t)$的時長內事件發生的個數服從參數為$\lambda{t}$的泊松分布,由公式\eqref{poisson}發生次數為0的概率是$e^{-\lambda{t}}$,即$P(T>t)=e^{-\lambda{t}}$,這和公式\eqref{power}是吻合的。

指數分布的期望是$\frac{1}{\lambda}$。

正態分布

密度函數\begin{equation}f(x)=\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^2}{2\sigma^2}}\label{gauss}\end{equation}獨立正態隨機變量的和還是正態隨機變量。

這里給出一種生成正態隨機變量的方法。首先獨立生成[0,1]上的均勻隨機變量$U_1$和$U_2$,則$X=\sqrt{-2log{U_1}}cos(2\pi{U_2})和Y=\sqrt{-2log{U_1}}sin(2\pi{U_2})$是相互獨立的標准正態隨機變量,這種方法叫做極化方法(polar method)。

中心極限定理

令$X_1,X_2,\cdots$是均值為0方差為$\sigma^2$的獨立隨機變量序列,具有相同的分布函數F,矩生成函數M在零點附近有定義,令\begin{equation}S_n=\sum_{i=1}^{n}X_i\end{equation}那么\begin{equation}\lim_{n\rightarrow\infty}P(\frac{S_n}{\sigma\sqrt{n}}\le{x})=\Phi(x),-\infty<x<\infty\end{equation}其中$\Phi(x)$是正態分布的累積密度函數。暫且不論矩生成函數是什么。

粗略來看中心極限定理是說,如果一個隨機變量是許多獨立同分布的隨機變量之和,那么它就近似服從正態分布。所以說正態分布是分布之王。

因為二項隨機變量是獨立的伯努力隨機變量之和,由中心極限定理得,二項分布可用正態分布來近似。當$p=\frac{1}{2}$時近似得最好。常用的經驗方法是np>5且n(1-p)>5時,近似比較合理。

柯西分布

如果X和Y是獨立的標正態隨機變量,則$Z=\frac{Y}{X}$服從柯西分布。\begin{equation}f(z)=\frac{1}{\pi(z^2+1)},-\infty<z<\infty\label{ksi}\end{equation}柯西密度與標准正態密度相似,也關於0點對稱,似乎表明E(Z)=0,然而$\int_{-\infty}^{\infty}\frac{|z|}{\pi(1+z^2)}dz=\infty$,期望不存在,究其原因在於柯西密度衰減得太慢,以至於z取較大值時的概率不能忽略不計。柯西密度尾部以速度$x^{-2}$衰減,正態密度尾部以速度$e^{-x^2}$衰減,正態密度衰減得快一些。

伽馬分布

先介紹下伽馬函數:$\Gamma(x)=(x-1)!=\int_{0}^{\infty}\mu^{x-1}e^{-\mu}d\mu,x>0$

伽馬函數把階乘運算從整數拓展到了實數。

不僅如此,利用伽馬函數還可以求一般函數的分數階導數。我們看一下$x^n$的各階導數:

1階導數--$nx^{n-1}$

2階導數--$n(n-1)x^{n-2}$

k階導數--$n(n-1)\cdots{(n-k+1)}x^{n-k}=\frac{n!}{(n-k)!}x^{n-k}=\frac{\Gamma(n+1)}{\Gamma(n-k+1)}x^{n-k}$

$x^n$的分數階導數就可以用伽馬函數來計算。對於一般函數f(x)可以通過Taylor展開式把它表示成冪級數的形式,借助於$x^n$的分數階導數就可以求出任意函數的分數階導數。

伽馬密度函數\begin{equation}g(t)=\frac{\lambda^{\alpha}}{\Gamma(\alpha)}t^{\alpha-1}e^{-\lambda{t}},t\ge0\label{gamma}\end{equation}參數$\alpha$為形狀參數,$\lambda$為尺度參數。變動$\alpha$改變改變密度函數的形狀,改變$\lambda$改變測量單位。

任何非負隨機變量的密度函數都可以用伽馬密度函數來模擬,就看$\alpha$和$\lambda$怎么擬合了。

$\alpha=1$時伽馬密度為指數密度,伽馬密度的期望是$\frac{\alpha}{\lambda}$,所以指數分布的期望是$\frac{1}{\lambda}$。

參數為$\lambda$的n個獨立指數隨機變量的和服從參數為n和$\lambda$的伽馬分布,又因為泊松過程中兩個連續隨機變量發生的時間間隔服從指數分布,因此在泊松過程中,n個連續事件發生的時間間隔服從伽馬分布。

貝塔分布

\begin{equation}f(u)=\frac{\Gamma(\alpha+\beta)}{\Gamma(\alpha)\Gamma(\beta)}\mu^{\alpha-1}(1-\mu)^{\beta-1},0\le\mu\le1\end{equation}

Beta分布的概率密度圖像也是個百變星君,調整$\alpha$和$\beta$它可以變成凸的、凹的、單調上升的、單調下降的,可以是曲線,也可以是直線。均勻分布也是一種特殊的Beta分布。

設x的密度函數為f(x),累積密度函數為F(x),$X_{(1)}<X_{(2)}<X\cdots<X_{(n)}$為順序統計量,則由概率的乘法定理很容易得出$X_{(k)}$的密度是:\begin{equation}f_k(x)=\frac{n!}{(k-1)!(n-k)!}f(x)F(x)^{k-1}(x)[1-F(x)]^{n-k}\end{equation}特別地,當x是[0,1]上的均勻分布時,f(x)=1,F(x)=x,則\begin{equation}f_k(x)=\frac{n!}{(k-1)!(n-k)!}x^{k-1}(x)[1-x]^{n-k}\end{equation}這就是一個貝塔密度。$R=X_{(n)}-X_{(1)}$稱為極差。

卡方分布

 $X_1,X_2,\cdots,X_n$是獨立的標准正態隨機變量,則$X_1^2+X_2^2+\cdots+X_n^2$是自由度為n的卡方分布,記為$\chi_n^2$。

如果U、V獨立,且$U\sim\;\chi_n^2,V\sim\;\chi_m^2$,那么$U+Y\sim\;\chi_{m+n}^2$

自由度為n的卡方分布是$\alpha=\frac{n}{2}$和$\lambda=\frac{1}{2}$的伽馬分布,由公式$\eqref{gamma}$可推出卡方密度\begin{equation}f(x)=\frac{1}{2^{n/2}\Gamma(n/2)}x^{n/2-1}e^{-x/2},x\ge0\label{chi}\end{equation}

t分布

如果$Z\sim\;N(0,1),U\sim\;\chi_n^2$,且Z和U獨立,則$\frac{Z}{\sqrt{U/n}}$是自由度為n的t分布。\begin{equation}f(t)=\frac{\Gamma(\frac{n+1}{2})}{\sqrt{n\pi}\Gamma(\frac{n}{2})}(1+\frac{t^2}{n})^{-\frac{n+1}{2}}\label{t}\end{equation}t分布關於0點對稱。當自由度趨於無窮大時,t分布趨於標准正態分布。事實上,自由度超過20或30時,兩個分布就非常接近。

F分布

如果U和V是自由度分別為m和n的獨立卡方隨機變量,

\begin{equation}W=\frac{U/m}{V/n}\label{f}\end{equation}為自由度為m和n的F分布,記作$F_{m,n}$

由t分布的定義易證:$t_n^2\sim\;F_{1,n}$


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM