【初等概率論】 02 - 條件概率和隨機變量


  概率空間是事先給定的,其中樣本空間是定義的基礎,事件及其概率是我們討論的對象。那么面對一個給定的概率空間,我們要討論一些什么問題呢?事件與概率是綁定在一起的,故應把注意力放在事件域上,本篇從兩個角度考察事件概率:條件概率和隨機變量,它們是概率論中非常基礎的概念。

1. 條件概率

1. 1 定義和性質

  對於整個事件域,我們不光要知道每個事件的概率,還要知道事件之間的關系。具體講就是,如果事件\(A\)發生了,事件\(B\)會是什么情況呢?當然這里所說的情況還是指“概率”,不過這時的樣本空間已經發生了變化,由\(\Omega\)變成了\(A\),自然原本的事件也都變成了與\(A\)的交集,比如事件\(B\)對應到事件\(AB\)。我們自然希望新事件域上的概率與之前的“兼容”,可以以\(P(A)\)作為基准,以\(P(AB)\)作為“可能性”的度量,容易構造出新的概率為\(\dfrac{P(AB)}{P(A)}\)。這樣的定義不光符合直覺,還容易證明是符合概率的三條要求的。數學上,把式(1)定義為事件\(B\)關於事件\(A\)的條件概率,條件概率生成的概率空間具有一般概率空間的所有性質。

\[P(B|A)=\dfrac{P(AB)}{P(A)}\tag{1}\]

  先把目光放在概率空間的轉移上,可以把\(\Omega\)上對應的稱為先驗概率空間,而把\(A\)上對應的稱為后驗概率空間。前者表示在沒有其它條件下的概率,而后者表示獲得了信息\(A\)后的概率,這也是條件概率名稱的由來。條件概率不僅揭示了事件概率隨條件的變化,本質上更是揭示了事件之間的關聯。如果后驗概率與先驗概率不同,則表示事件\(A\)與其它事件之間有一定關系,至於如何度量這個關聯,以后會具體討論。

  在很多時候,后驗概率反而更容易獲取,這時把式(1)改寫成式(2)會更有意義,它可以求得“局部”的先驗概率。這個思想容易擴展成式(3)的乘法公式,它將復雜的概率分解成了多層簡單的概率,在實際計算中非常有用。

\[P(AB)=P(A)P(B|A)\tag{2}\]

\[P(A_1A_2\cdots A_n)=P(A_1)P(A_2|A_1)P(A_3|A_1A_2)\cdots P(A_n|A_1A_2\cdots A_{n-1})\tag{3}\]

  式(2)得到的是事件\(B\)在條件\(A\)下的片段,如果樣本空間\(\Omega\)可以被分割為可數個互斥條件\(A_i\),並且\(B\)在每個條件下的概率都容易求得,則不難得到\(B\)的完整先驗概率。式(4)被稱為全概率公式,它經常被用在事件可以按條件分類的場景,是也是一個常用的方法。

\[P(B)=\sum_{i=1}^{\infty}P(A_iB)=\sum\limits_{i=1}^{\infty}P(A_i)P(B|A_i)\tag{4}\]

  繼續觀察全概率模型,樣本空間被條件\(A_i\)划分,而在每個條件下事件\(B\)發生概率也是清楚的。試想如果事件\(B\)的確發生了,如何計算條件\(A_i\)發生的概率\(P(A_i|B)\)?這是一個后驗概率的計算,只不過把條件與結果的順序顛倒了。利用式(5)不難得到式(6),它就是著名的貝葉斯公式。要想在觀察值\(B\)下估算實際的值,可事先統計實際值的分布、以及對每個實際值的可能觀察值。貝葉斯公式為信息判斷提供了一種便捷可靠的途徑,在工業上被廣泛應用。

\[P(B)P(A_i|B)=P(A_iB)=P(A_i)P(B|A_i)\tag{5}\]

\[P(A_i|B)=\dfrac{P(A_i)P(B|A_i)}{P(B)}=\dfrac{P(A_i)P(B|A_i)}{\sum\limits_{j=1}^{\infty}P(A_j)P(B|A_j)}\tag{6}\]

1.2 統計獨立性

  前面說過,條件概率反應了事件之間的關系,當條件概率\(P(B|A)\)與先驗概率\(P(B)\)不相同時,可以認為條件\(A\)對事件\(B\)造成了影響。這里先討論簡單的情景,即條件\(A\)並沒有對事件\(B\)的概率造成影響,這時有\(P(B|A)=P(B)\)。展開條件概率得到它的等價表達式(7),該式中\(A,B\)的關系是對等的,它更適合用來表示“相互”的關系。

  對於滿足式(7)的事件\(A,B\),一般稱之為統計獨立的,或簡稱獨立的。其實並不能說獨立的兩個事件是“無關”的,這里的獨立僅適用於統計概率值的關系,這個認識非常重要,它也正是數學嚴謹性的體現,每個概念都有它明確的所指。“無關”是個很寬泛的概念,在這里是能包含統計獨立性的。因此在現實使用中,如果不需要嚴格論證,就可以把那些明顯“無關”的事件看成是獨立的,比如兩次互不干擾的隨機試驗。

\[P(AB)=P(A)P(B)\;\Leftrightarrow\;P(B|A)=P(B)\;\Leftrightarrow\;P(A|B)=P(A)\tag{7}\]

\[P(A_1A_2\cdots A_n)=P(A_1)P(A_2)\cdots P(A_n)\tag{8}\]

  統計獨立性可以簡化很多問題的計算,當事件獨立時,聯合事件的概率可以直接由各個事件概率相乘得到(式(8))。另外容易證明,如果事件\(A,B\)獨立,則\(\bar{A},\bar{B}\)、\(\bar{A},B\)、\(A,\bar{B}\)也是獨立的,這個結論使得獨立性更方便使用。

  獨立性作為事件間的一種“關系”,它有沒有傳遞性呢?你畫個文氏圖,很容易找出反例,即獨立性是與“兩者”緊相連的,與第三者並無關聯。更甚者,如果你要定義三個事件之間“相互獨立”,光有兩兩獨立也是不夠的。所謂多個事件的相互獨立,自然是想任何事件(或聯合事件)都統計獨立於其它事件(或聯合事件),光有兩兩獨立是不夠的。舉個三個事件下的反例就足夠了,圖中\(A,B,C\)兩兩獨立,但顯然\(A\)與\(BC\)不獨立。\(n\)個事件相互獨立的條件是式(9)成立,其中\(A_{i_1},\cdots,A_{i_m}\)是對任意\(m\)任意選取的\(m\)個不同事件。

\[P(A_{i_1}A_{i_2}\cdots A_{i_m})=P(A_{i_1})P(A_{i_2})\cdots P(A_{i_m}),\;(2\leqslant m\leqslant n)\tag{9}\]

2. 隨機變量

2.1 分布函數

  概率空間的模型好像很難進一步討論下去,主要原因是樣本空間是一般性的集合。如果把樣本空間特殊化成數集,概率就能和函數聯系起來,處理起來就能方便得多,而且可以直接利用實變函數的結論。另一方面,實際應用中的樣本空間往往就是一個整數集或實數集,這就有了充分的理由來研究實數樣本空間的概率問題。不過統一的論證需要測度論的知識,這里僅以離散模型和連續模型為例,闡明隨機變量的概念。

  先是將樣本點對應成實數,也就是說存在\(\Omega\to\Bbb{R}\)上的映射\(\xi(\omega)\)。新的樣本空間中,我們自然以一維博雷爾域\(\mathscr{B}_1\)為事件域。要使得原來的概率在新事件域上仍然是概率,還得要求任何博雷爾點集\(B\)的原像是一個事件,即滿足式\(\{\omega:\xi(\omega)\in B\}\in\scr{F}\),而\(B\)的概率則應是\(P\{\xi(\omega)\in B\}\)。這個條件雖然重要,但在實際中往往都是成立的,故以后直接使用新的概率空間。

  映射\(\xi(\omega)\)的值是實數,它隨着\(\omega\)變化,並且還帶有概率的屬性,一般也把它稱為隨機變量,簡寫為\(\xi\),仔細品味\(\xi\)的含義對理解隨機變量很重要。我們知道,一維博雷爾域可以由所有的開區間\((-\infty,a)\)生成,因此如果能描述所有\((-\infty,a)\)上的概率,也就完整描述了隨機變量的概率分布。式(10)中的實函數便滿足要求,它被稱為隨機變量\(\xi\)的分布函數,也說成\(\xi\)服從分布\(F(x)\),簡記為\(\xi\sim F(x)\)。

\[F(x)=P\{\xi(\omega)<x\}\tag{10}\]

  容易證明分布函數滿足以下三個性質,它們與概率的三條性質一一對應。實變函數中還能證明:任何滿足這三個條件的函數,都是某個隨機變量的分布函數,並且隨機變量和分布函數相互唯一確定。

  (1)單調性:\(a<b\,\Rightarrow\, F(a)<F(b)\);

  (2)規范性:\(\lim\limits_{x\to-\infty}F(x)=0\),\(\lim\limits_{x\to+\infty}F(x)=1\);

  (3)左連續性:\(F(x^-)=F(x)\)。

  分布函數為概率空間提供了統一的描述,使得分析的工具更容易使用,但這里我們不進行分析討論,故還是分成離散和連續兩種情況直接討論。離散隨機變量的分布函數是一個跳躍函數,直接討論它的分布函數\(p(\xi=x_i)\)會更方便直觀。對於連續隨機變量的分布函數,一般假定它是光滑的,即存在連續導函數\(p(x)=F'(x)\)。仔細思考導數的含義,你同樣會明白,\(p(x)\)並不是\(x\)處的概率,它表示\(x\)附近的“平均概率”或者“概率密度”,因此\(p(x)\)也稱為\(\xi\)的密度函數,顯然有式(11)成立。

\[F(x)=\int_{-\infty}^xp(y)\,\text{d}y\tag{11}\]

2.2 隨機變量的函數

  現在我們已經進入變量和函數的世界,有個很自然的問題是,如果隨機變量\(\eta\)滿足\(\eta=g(\xi)\),則如何用\(\xi\)的分布函數\(F(x)\)表示\(\eta\)的分布函數?這個問題不難,直接用定義有式(12),但可惜它無法化簡,因為非常依賴於\(g(x)\)的特性。

\[G(y)=P\{\eta<y\}=P\{g(\xi)<y\}=\int_{g(x)<y}p(x) \text{d}x\tag{12}\]

  但在一些特殊情景下,式(12)還可以進一步化簡。比如假設\(g(x)\)是單調遞增的,則容易有\(G(y)=F(g^{-1}(y))\)。有趣的是,如果\(F(x)\)本身是單調的,則易知隨機變量\(\eta=F(\xi)\)的分布函數是\(G(y)=y\),它是\([0,1]\)上的均勻分布。這就啟發我們,對任何單調的分布函數\(F(x)\),我們都可以構造出它的隨機變量\(F^{-1}(\eta)\),而需要的只是一個\([0,1]\)上的均勻分布。這個結論的條件還可以放寬,有興趣的自行研究,它被稱為隨機變量的存在定理

  當\(\xi\)有密度函數\(p(x)\),而\(g(x)\)有連續導函數時,容易證明\(\eta\)的密度函數\(q(y)\)滿足式(13)。如果你理解密度函數的意義,其實式(13)有着很直觀的解釋,就是表示斜率對密度的影響。根據這個思想,如果\(g(x)\)的導函數分段連續,可以將公式(13)應用在每個分段中,然后每段的密度函數相加即可。

\[q(y)=p[g^{-1}(y)]\cdot\left|[g^{-1}(y)]'\right|\tag{13}\]

  當然還可以討論多元函數的隨機變量\(\eta=g(\xi_1,\cdots,\xi_n)\),但一般情況下也很難得到簡單的分布函數,只能針對特殊情況分別討論。比如當\(\xi_1,\xi_2\)相互獨立時,你可以求得\(\eta=\xi_1+\xi_2\)的分布函數(14)。它被稱為卷積公式,卷積的概念在數學里非常常見。還可以求得\(\eta=\xi_1/\xi_2\)的分布函數(15),該式在數理統計中比較有用。

\[\eta=\xi_1+\xi_2\;\Rightarrow\;q(y)=\int_{-\infty}^{+\infty}p_1(y-u)p_2(u)\,\text{d}u\tag{14}\]

\[\eta=\dfrac{\xi_1}{\xi_2},\;(\xi_2>0)\;\Rightarrow\;q(y)=\int_{-\infty}^{+\infty}up_1(yu)p_2(u)\,\text{d}u\tag{15}\]

   設\(\eta,\zeta\)分別是獨立隨機變量\(\xi_1,\cdots,\xi_n\)中的最大值和最小值,試求\(\eta,\zeta,\eta-\zeta\)的分布函數。

2.3 隨機向量

  有時候,隨機事件的值是一個多維向量\(\overrightarrow{\xi}=(\xi_1,\xi_2,\cdots,\xi_n)\),它被稱為隨機向量或\(n\)維隨機變量。容易定義\(\overrightarrow{\xi}\)的(聯合)分布函數如式(16),它在每一維都是遞增的。但在每一維都遞增的函數(同時滿足分布函數其它特點),不一定是分布函數。拿二維空間為例,只有滿足空間上的遞增性(而不是單個維度),才能成為分布函數,因此還必須有式(17)成立。

\[F(x_1,x_2,\cdots,x_n)=P\{\xi_1<x_1,\xi_2<x_2,\cdots,\xi_n<x_n\}\tag{16}\]

\[P\{a_1\leqslant\xi_1<b_1,a_2\leqslant\xi_2<b_2\}=F(b1,b_2)-F(a_1,b_2)-F(b_1,a_2)+F(a_1,a_2)\geqslant 0\tag{17}\]

  隨機向量也可以定義密度函數,而且在每一維都有式(18)的邊際分布(分別是離散和連續)。但同樣的邊際分布卻可能有不同的分布函數,主要是因為每一維的隨機變量之間可能不是獨立的。這就為我們提供了另一個視角看隨機向量,它是討論隨機變量關系的一個很好的場所,就像條件概率\(P(B|A)\)要借助\(P(AB)\)定義一樣。

\[p_1(x_i)=\sum\limits_j p(x_i,y_j);\;\; p_1(x)=\int_{-\infty}^{+\infty}p(x,y)\,\text{d}y \tag{18}\]

  不管是離散還是連續場景,式(19)定義的\(\xi\)關於\(\eta\)的條件分布都是合理的。可以把條件分布的概率分布(或密度函數)簡寫為\(p(x|y)\),容易推導出它有表達式(20)(離散和連續)。自然地,滿足式(21)的隨機變量被稱為相互獨立的,它們的分布函數和密度函數可以拆分為邊際分布之積,且由邊際分布唯一確定(式(22)。

\[P\{\xi<x|\eta=y\}=\lim\limits_{\varDelta y\to 0}P\{\xi<x|y\leqslant\eta<y+\varDelta y\}\tag{19}\]

\[p(x_i|y_j)=\dfrac{p(x_i,y_j)}{p_2(y_j)};\;\;p(x|y)=\dfrac{p(x,y)}{p_2(y)}\tag{20}\]

\[P\{\xi_1<x_1,\cdots,\xi_n<x_n\}=P\{\xi_1<x_1\}\cdots P\{\xi_n<x_n\}\tag{21}\]

\[F(x_1,\cdots,x_n)=F_1(x_1)\cdots F_n(x_n);\;\;p(x_1,\cdots,x_n)=p_1(x_1)\cdots p_n(x_n)\tag{22}\]

  最后再來看隨機向量的變換\(\overrightarrow{\eta}=g(\overrightarrow{\xi})\),利用微積分中多元函數變換的結論,如果\(\overrightarrow{\eta},\overrightarrow{\xi}\)的維度相同且存在逆函數,則有式(23)成立,其中\(J\)是向量變換的雅克比行列式。這個結論可以對隨機向量進行變換,從而得到更便於處理的分布(比如各維度相互獨立)。還有一個作用是計算隨機變量的多元函數\(\eta_1=g(\xi_1,\cdots,\xi_n)\)的分布,步驟是先添加\(n-1\)個輔助的多元函數,求得聯合密度函數(23)后再求\(\eta_1\)的邊際分布。

\[q(y_1,\cdots,y_n)=p(x_1(y_1,\cdots,y_n),\cdots,x_n(y_1,\cdots,y_n))\cdot |J|\tag{23}\]


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM