概率、隨機變量及其分布

本文轉載自查看原文 2021-08-05 19:48 118 統計學

概率

概率是對某一事件發生可能性的數據度量。我們用概率描述事情發生可能性的大小。

試驗、計數法則和概率分配

試驗：產生明確結果的過程。在一次試驗中，有且只有一種結果。

試驗	試驗結果
拋一枚硬幣	正面、反面
檢測一枚零件	合格、不合格
進行一次銷售	成功、不成功
拋擲一枚色子	1、2、3、4、5、6

樣本空間：所有可能的試驗結果的集合。

樣本點：一次試驗的結果。

計數法則、組合和排列

多步驟試驗的計數法則

若一個試驗的結果可以分為\(k\)步，每一步有\(n_k\)種結果，則所有可能的結果總數為\(\prod n_k\)。

例如，拋擲一枚硬幣5次，共有\(2^5\)種結果。

組合計數法則

從N項中選取n項的組合數為

\[C_N^n=\frac{N!}{(N-n)!n!} \]

其中，\(N! = N(N-1)(N-2)…1\)

\(n!=n(n-1)(n-2)…1\)

!為階乘。

組合數法則基於這樣一個場景，對\(N\)個不同單位進行排序，第一個位置有\(N\)種選擇，第二個位置有\(N-1\)個,由分布試驗計數法則可知，共\(N!\)種結果。考慮另一種選法，將單位分為兩部分排序，首先從\(N\)個單位中選出\(n\)個單位用於填補前\(n\)個位置，共有\(C_N^n\)種選擇方法，剩余單位用於填補剩余的\(N-n\)個位置，對兩部分進行排序，分別為\(n!\)和\((N-n)!\)種結果，由分步計數法則可知，總共\(C_N^nn!(N-n)!\)種結果。因此有

\[N! = C_N^n(N-n)!n! \]

排列計數法則

從N項中選取n項的組合數為

\[A_N^n = \frac {N!} {(N-n)!} \]

排列數基於這樣一個場景，從\(N\)項中首先選擇\(n\)項組合數，共\(C_N^n\)種，然后對選出的n種進行排序，共\(n!\)種，由分布計數法則，有

\[A_N^n =C_N^nn!=\frac {N!}{(N-n)！} \]

概率分配

古典法

每種試驗結果具有相同的概率，如投硬幣，擲色子等。

相對頻數法

以大量試驗的頻率作為概率。

主觀法

搞笑的

事件及其概率

事件：樣本的集合。如擲色子獲得偶數，擲硬幣5次獲得3次正面向上。
事件的概率：樣本點概率之和。

概率的基本性質

事件的補

事件A的補：不包括在事件A中的樣本點，記為\(\bar A\)
概率：\(P(A)=1-P(\bar A)\)

加法公式

事件A和B的並：屬於A或者屬於B的樣本點構成的集合，記作\(A\bigcup B\)
事件A和B的交：同時屬於A和B的樣本點構成的集合，記作\(A\bigcap B\)

加法公式：

\[P(A\bigcup B)=P(A)+P(B)-P(AB) \]

互斥事件：若兩事件無公共樣本點，則兩事件互斥。

條件概率

條件概率：在事件A發生的情況下，事件B發生的概率，記為\(P(B|A)\)

\[P(B|A)=\frac {P(AB)}{P(A)} \]

獨立事件：事件A、B的發生互不影響，則AB互為獨立事件，有以下充要條件：

\[P(A|B)=P(A)\]

或

\[P(AB)=P(A)P(B) \]

貝葉斯定理

樣本空間的分割：若事件\(B_1,B_2…B_n\)互斥，且\(\bigcup_{i=1}^{n}B_i=\Omega\),則稱這組事件B為樣本空間的一個分割。
全概率公式：

\[P(A)=\sum P(B_i)P(A|B_i) \]

其中，事件組B為樣本空間的一個分割。

舉個例子，求某次考試某班級考試的總合格率，可以用男生合格率乘以男生概率加上女生合格率乘以女生概率。

貝葉斯定理

\[P(A_i|B) = \frac {P(A_i)P(B|A_i)}{\sum_{j=1}^{n} P(A_j)P(B|A_j)} \]

貝葉斯定理是將全概率公式與條件概率公式結合得到的一個常用的定理。

隨機變量及其分布

隨機變量：隨機變量是對一個試驗的結果的數值描述。

如拋擲十次硬幣，正面朝上的次數\(X\)是隨機變量；某十字路口一定時間內經過的汽車的數量是隨機變量。

離散型隨機變量：隨機變量的取值范圍是離散的數據的變量。

如擲色子的點數只能是1，2，3，4，5，6。

連續型隨機變量：隨機變量的取值范圍是連續的區間的變量。

如某人從家里到公司所用的時間。

隨機變量的概率分布

分布函數：對於任意隨機變量\(X\)，稱

\[F(x)=P(X\leq x) \]

為隨機變量的分布函數。

分布列：離散型隨機變量的分布列指的是隨機變量取不同值的概率。其基本條件為：

\[0\leq P(A_i) \]

\[\sum P(A_i)=1 \]

概率密度函數：連續型隨機變量的概率密度函數定義如下：

設某連續型隨機變量的分布函數為\(F(x)\),若存在實數軸上的一個非負可積函數\(f(x)\)，滿足

\[F(x)=\int_{-\infty }^{x }f(t)dt \]

則稱\(f(x)\)為該隨機變量的概率密度函數。

顯然，概率密度函數符合相同的基本條件：

\[f(x)\geq 0 \]

\[\int_{-\infty}^{\infty}f(x)dx=1 \]

對於離散型隨機變量而言，概率直接由分布列給出，對於連續型隨機變量而言，概率由概率密度函數在某區間上的積分給出，這一點容易用分布函數證明。

數學期望與方差

期望

數學期望：期望或均值是對隨機變量中心位置的一種度量。
離散型隨機變量的期望

\[EX=\sum X_iP(X_i) \]

若級數\(EX\)不收斂，則稱期望不存在。

連續型隨機變量的期望

\[EX = \int_{-\infty}^{\infty} xf(x)dx \]

數學期望的性質：
- a為常數，則\(E(a)=a\)
1. a為常數，則\(E(aX)=aEX\)
2. \(g_1(x)、g_2(x)\)為兩任意函數，則
\[E[g_1(x)\pm g_2(x)]=E[g_1(x)]\pm E[g_2(x)] \]

方差與標准差

方差：方差衡量數據的變異程度。

\[DX=Var(X)=E(X-EX)^2 \]

離散型隨機變量的方差

\[DX=\sum (X_i-EX)^2P(X_i) \]

連續型隨機變量的方差

\[DX = \int_{-\infty}^{\infty}(x-EX)^2f(x)dx \]

標准差：方差的算術平方根

\[\sigma=\sqrt{DX} \]

方差的性質
- \(DX = EX^2-(EX)^2\)
證明：

\[\begin {split}DX &= E(X-EX)^2\\&=E[X^2-2XEX+(EX)^2]\\&=EX^2-2EXEX+(EX)^2\\&=EX^2-(EX)^2\end{split} \]
- 若c為常數，則\(D(c)=0\)
- 若a,b為常數，則\(D(aX+b)=a^2DX\)
證明：

\[\begin {split} D(aX+b)&=E(aX+b)^2-[E(aX+b)]^2\\&=E(a^2X^2+2abX+b^2)-(aEX+b)^2\\&=a^2EX^2+2abEX+b^2-a^2(EX)^2-2abEX-b^2\\&=a^2[EX^2-(EX)^2]\\&=a^2DX\end{split} \]
- \(DX=0\Leftrightarrow P(x=a)=1\)

常用離散分布

二項分布

二項試驗：又稱獨立重復試驗或n重伯努利試驗，其性質如下：
- 共進行n次試驗
- 試驗之間相互獨立
- 每次試驗只有兩種結果，成功或失敗
- 每次試驗的成功概率相同，記為p
二項分布：n重伯努利試驗成功次數\(X\)的分布列即為二項分布。

\[P(X=k)=C_n^kp^k(1-p)^{n-k} \]

記為\(X\sim B(n,p)\)

首先從\(n\)次試驗中選出\(k\)次，然后計算\(k\)次試驗成功與\((n-k)\)次試驗失敗的概率。

二項分布的概率恰好為二項式\([p+(1-P)]^n\)中的第\(k+1\)項，二項分布由此得名。

兩點分布：n=1的二項分布稱為兩點分布或伯努利分布。
二項分布的數學期望

\[E(X)=np \]

證明：

\[\begin {split}E(X) &= \sum_{k=0}^{n} kP(X=k)\\&=\sum_ {k=1}^n kC_n^kp^k(1-p)^{n-k}\\&=np\sum_ {k=1}^n\frac{(n-1)!}{(k-1)!(n-k)!}p^{k-1}(1-p)^{n-1-(k-1)}\\&=np\sum_{k=1}^{n}C_{n-1}^{k-1}p^{k-1}(1-p)^{n-1-(k-1)}\\&=np(p+1-p)^{n-1}\\&=np\end{split} \]

二項分布的方差

\[DX=np(1-p) \]

證明：

\[\begin {split}DX &= EX^2-(EX)^2\end{split} \]

\[\begin{split}EX^2&=\sum_{k=0}^{n}k^2P(X=k)\\&=\sum_{k=0}^nk^2C_n^kp^k(1-p)^{n-k}\\&=\sum_{k=1}^nk(k-1+1)C_n^kp^k(1-p)^{n-k}\\&=\sum_{k=2}^nk(k-1)C_n^kp^k(1-p)^{n-k}+\sum_{k=1}^nkC_n^kp^k(1-p)^{n-k}\\&=n(n-1)p^2\sum_{k=2}^nC_{n-2}^{k-2}p^{k-2}(1-p)^{n-2-(k-2)}+np\\&=n(n-1)p^2(p+1-p)^{n-2}+np\\&=n(n-1)p^2+np\end{split} \]

故

\[DX=n(n-1)p^2+np-(np)^2=np(1-p) \]

泊松分布

泊松分布：如果事件出現的次數滿足一下兩個性質，則隨機變量服從泊松分布：
- 任意相等區間內事件發生的概率相同。
- 事件在某區間上是否發生與事件在其他區間上是否發生是相互獨立的。
例如：
- 在一天內．來到某商場的顧客數。
- 在單位時間內，電路受到外界電磁破的沖擊次數
- 1平方米內，玻璃上的氣泡數．
泊松分布的概率

\[P(X=k)=\frac{\lambda^k}{k!}e^{-\lambda}(k=0,1,2...) \]

關於泊松分布概率的由來，可參考以下內容，很通俗易懂的講解！

泊松分布的現實意義是什么，為什么現實生活多數服從於泊松分布？ - 馬同學的回答 - 知乎
https://www.zhihu.com/question/26441147/answer/429569625

容易驗證，泊松分布的概率和為1：

\[\sum_{k=0}^{n}\frac{\lambda^k}{k!}e^{-\lambda}=e^{-\lambda}\sum_{k=0}^{n}\frac{\lambda^k}{k!}=e^{-\lambda}e^{\lambda}=1 \]

泊松分布的數學期望

\[\begin{split}EX&=\sum_{k=0}^{\infty}kP(X=k)\\&=\lambda e^{-\lambda}\sum_{k=0}^{\infty}\frac{\lambda^{k-1}}{(k-1)!}\\&=\lambda e^{-\lambda}e^{\lambda}\\&=\lambda\end{split} \]

泊松分布的方差

\[\begin{split}EX^2&=\sum_{k=0}^{n}k^2P(X=k)\\&=\sum_{k=1}^{\infty}k^2\frac{\lambda^k}{k!}e^{-\lambda}\\&=\sum_{k=1}^{\infty}k(k-1+1)\frac{\lambda^{k}}{k!}e^{-\lambda}\\&=\sum_{k=2}^{\infty}k(k-1)\frac{\lambda^{k}}{k!}e^{-\lambda}+\sum_{k=1}^{\infty}k\frac{\lambda^{k}}{k!}e^{-\lambda}\\&=\lambda^2 e^{-\lambda}\sum_{k=2}^{\infty}\frac{\lambda^{k-2}}{(k-2)!}+\lambda \\&=\lambda^2+\lambda\end{split} \]

\[DX=EX^2-(EX)^2=\lambda \]

二項分布的泊松近似

泊松定理：在n重伯努利試驗中，記事件A在一次試驗中發生的概率為\(p_n\)，若當\(n\rightarrow\infty\)時，有\(np_n\rightarrow\lambda\),則

\[\lim_{n\rightarrow\infty}P(A)=\lim_{n\rightarrow\infty}C_n^kp_n^k(1-p_n)^{n-k}=\frac {\lambda^k}{k!}e^{-\lambda} \]

證明：

\[\begin{split}\lim_{n\rightarrow\infty}P(A)&=\lim_{n\rightarrow\infty}C_n^kp_n^k(1-p_n)^{n-k}\\&=\lim_{n\rightarrow\infty}\frac{n(n-1)…(n-k+1)}{k!}(\frac{\lambda}{n})^k(1-\frac \lambda n)^{n-k}\\&=\frac{\lambda^k}{k!}\lim_{n\rightarrow\infty}\frac{n(n-1)…(n-k+1)}{n^k}(1-\frac \lambda n)^{n-k} \end{split} \]

又有

\[\lim_{n\rightarrow\infty}\frac{n(n-1)…(n-k+1)}{n^k}=1 \]

\[\lim_{n\rightarrow\infty}(1-\frac \lambda n)^{n-k}=e^{-\lambda} \]

故原命題得證

由於泊松定理是在\(np_n\rightarrow\lambda\)的情況下得到的，因此，在實際情況中，當二項分布\(B(n,p)\)試驗次數\(n\)很大，概率\(p\)較小，\(\lambda\)適中時，可以使用泊松分布做近似。

超幾何分布

考慮這樣一個場景，\(N\)件產品中有\(M\)件合格品，從中抽取\(n\)件，其中合格品數量為\(m\)的概率即為超幾何分布。

\[P(m)=\frac{C_M^mC_{N-M}^{n-m}}{C_N^n} \]

超幾何分布的期望

\[E(X)=n\frac MN \]

證明：

\[\begin{split}E(X)&=\sum_{m=0}^{M}m\frac{C_M^mC_{N-M}^{n-m}}{C_N^n}\\&=n\frac MN\sum_{m=1}^{M}\frac{C_{M-1}^{m-1}C_{N-M}^{n-m}}{C_{N-1}^{n-1}}\\&=n\frac MN\end{split} \]

超幾何分布的方差

\[DX=\frac{nM(N-M)(N-n)}{N^2(N-n)} \]

證明：

\[\begin{split}EX^2 &= \sum_{m=0}^{M}m^2\frac{C_M^mC_{N-M}^{n-m}}{C_N^n}\\&=\sum_{m=1}^{M}m(m-1+1)\frac{C_M^mC_{N-M}^{n-m}}{C_N^n}\\&=\sum_{m=2}^{M}m(m-1)\frac{C_M^mC_{N-M}^{n-m}}{C_N^n}+EX\\&=\frac {M(M-1)n(n-1)}{N(N-1)}+EX\end{split} \]

\[DX = EX^2 - (EX)^2=\frac{nM(N-M)(N-n)}{N^2(N-1)} \]

幾何分布

幾何分布：在n重伯努利試驗中，事件首次出現的試驗次數為\(X\)，則\(X\)服從幾何分布,記為\(X\sim Ge(p)\)

\[P(X=k)=(1-p)^{k-1}p \]

幾何分布的數學期望:

令\(q=1-p\)

\[\begin{split}E(X)&=\sum_{k=1}^{\infty}kq^{k-1}p\\&=p\sum_{k=1}^\infty\frac{dq^k}{dq}\\&=p\frac {d\sum_{k=0}^\infty q^k}{dq}\\&=p\frac d{dq}\frac 1{1-q}\\&=\frac p{(1-q)^2}\\&=\frac 1p\end{split} \]

幾何分布的方差:

\[\begin{split}EX^2 &= \sum_{k=1}^\infty k^2q^{k-1}p\\&=p\sum_{k=1}^\infty(k-1+1)kq^{k-1}\\&=pq\sum_{k=1}^\infty k(k-1)q^{k-2}+\frac 1p\\&=pq\sum_{k=1}^\infty \frac{d^2q^k}{dq^2}+\frac 1p\\&= pq \frac{d^2\sum_{k=0}^\infty q^k}{dq^2}+\frac 1p\\&=\frac {2q}{p^2}+\frac 1q\end{split} \]

\[DX=\frac{1-p}{p^2} \]

常用連續分布

正態分布

正態分布：若隨機變量X的概率密度函數為

\[f(x)=\frac 1{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^2}{2\sigma^2}} \]

則稱隨機變量X服從正態分布，記為\(X\sim N(\mu,\sigma^2)\)，其中\(\mu\)為均值，\(\sigma\)為標准差。

標准正態分布：若\(X\sim N(0,1)\),則稱X服從於標准正態分布。
正態分布的標准化：若\(X\sim N(\mu,\sigma^2)\)，則\(T=\frac{X-\mu}{\sigma}\sim N(0,1)\)

證明：設\(X、T\)的分布函數分別為\(F_X(x)、F_T(t)\)，概率密度分別為\(f_X(x)、f_T(t)\),則

\[\begin{split}F_T(t)=P(T\leq t)=P(X\leq \sigma t+\mu)=F_X(\sigma t+\mu)\end{split} \]

\[f_T(t)=F_T'(t)=\sigma f_X(\sigma t+\mu)=\frac 1{\sqrt{2\pi}}e^{-\frac{t^2}{2}} \]

正態分布的均值：正態分布的均值為\(\mu\)

證明：

\[\begin{split}E(\frac{X-\mu}{\sigma} )=E(T)&=\int_{-\infty}^{\infty}t\frac1{\sqrt{2\pi}}e^{-\frac{t^2}2}dt\end{split} \]

可以看出被積函數為奇函數，故

\[E(\frac{X-\mu}{\sigma} )=E(T)=0 \]

\[EX=\mu \]

正態分布的方差：\(\sigma\)

證明：

\[\begin{split}ET^2&=\int_{-\infty}^{\infty}t^2\frac 1{\sqrt {2\pi}}e^{-\frac {t^2}2}dt\\&=\frac 1{\sqrt{2\pi}}\int_{-\infty}^{\infty}(-t)de^{-\frac {t^2}2}\\&=\frac 1{\sqrt{2\pi}}[-te^{-\frac {t^2}2}|_{-\infty}^{\infty} + \int_{-\infty}^{\infty}e^{-\frac {t^2}2}dt]\\&=1\end{split} \]

\[DX=D(\sigma T+\mu)=\sigma^2 \]

均勻分布

均勻分布的概率密度

\[f(x)=\begin{cases} \frac1{b-a}& \text{a < x < b}\\ 0& \text{其他} \end{cases}\]

均值：\(EX=\frac {a+b}2\)
方差：\(DX=\int_a^b\frac{x^2}{b-a}dx-(EX)^2=\frac {(b-a)^2}{12}\)

指數分布

指數分布的概率密度函數

\[f(x)=\begin {cases} \lambda e^{-\lambda x} &\text{x >= 0}\\ 0 &\text{x < 0} \end {cases}\]

其中\(\lambda>0\)

指數分布的均值：

\[\begin{split}EX&=\int_0^{+\infty}\lambda xe^{-\lambda x}dx\\&=\int_0^{+\infty}(-x)de^{-\lambda x}\\&=-xe^{-\lambda x}|_0^{+\infty}+\int_0^{+\infty}e^{-\lambda x}dx\\&=\frac 1{\lambda}\end{split} \]

指數分布的方差

\[\begin{split}EX^2&=\int_0^{+\infty}\lambda x^2e^{-\lambda x}dx\\&=\int_0^{+\infty}(-x^2)de^{-\lambda x}dx\\&=-x^2e^{-\lambda x}|_0^{+\infty}+\int_0^{+\infty}2xe^{-\lambda x}dx\\&=\frac 2{\lambda^2}\end{split} \]

\[DX=EX^2-(EX)^2=\frac 1{\lambda^2} \]

指數分布用於描述某事件連續兩次發生之間的時間間隔

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 隨機變量的概率分布一維隨機變量及其概率分布概率統計學習——（二）隨機變量及其分布隨機變量概率分布函數匯總 MATLAB 一維隨機變量及其概率分布概率筆記6——多維隨機變量概率空間與隨機變量的概念【概率論】隨機變量概率論04 隨機變量隨機變量概率密度函數和概率分布函數相關總結