本節內容主要可分為
- 什么是概率
- 古典概率計算
- 事件的關系與運算
- 條件概率與獨立性
- 全概率公式和貝葉斯公式
概率論是一門數學分支,同數學科目的其他分支一樣,是建立在一些公理上的嚴格的數學體系,其研究的主要對象是隨機變量、隨機分布和隨機過程。對於隨機事件是不可能准確預測其結果的,但是我們可以描述其規律,分別是大數定理和中心極限定理,統計學正是建立在這個基礎之上的。
什么是概率
概率是一個生活中常見的詞匯,籠統地說來很容易理解,但若從理論或者從哲學地高度去分析,就可以提出一系列問題,具體可參考測度學,在此不給出一個定義,直接從一些實例中理解:
- 簡單的例子如投骰子、扔硬幣等事件,雖然可能的結果又多種,但是根據生活的經驗,我們可能會對於每種可能出現的結果給出一個描述其“可能性”的數量指標,是即為概率。如果忽略一個硬幣的物理不均勻性和投擲因素的影響,我們有理由認為正反兩面出現的機會是均等的,稱之為“等可能性”。
- 生活中,第二天的天氣也是未知的,但是我們每個人根據自己的經驗可以對“明天是否會下雨”給出一個可能性的估計,可理解為一種心態或傾向性,是為主觀概率。
- 對於一個隨機的事件,比如說從一批產品中隨機抽取一個,其合格的可能性是為知的。但若我們持續抽取,根據抽出的產品的質量情況,可以對其做出一個估計,或者說是用頻率來估計概率,是為統計概率。
以下對於相關概念做一些解釋:
- 從上述例子也可以看出,概率是對於事件而言的,不同於生活中的意思,概率論中,“事件”是指某種情況的的“陳述”,它可能發生,也可能不發生,發生與否,要到有關的“試驗”有了結果以后,才能知曉。
- 對於“事件”進一步解釋:1. 有一個明確界定的實驗,即人為主動的意思,只是記錄而不干預稱為“觀察”;2. 這個實驗的全部可能結果,是在實驗前就明確的。
- 對於“必然事件”“不可能事件”等同於概率為1和0的事件,嚴格的理論而言二者有所區別,但這種區別並無實際的重要性。
古典概率計算
古典概型可以說是我們生活中最為常見、也是最好理解的概率場景。其核心在於假定試驗中所有結果出現的可能性是相等的,即上述所謂的等可能性,而古典概率的計算主要基於排列組合。在《A Fist Course in Probability》中第一章就講排列組合,在此給出基本公式。
1 組合分析
- 排列:從n個元素中取出k個元素,k個元素的排列數量為
\(P_k^n=n!/(n−k)!\) - 組合:和排列不同的是,組合取出元素的順序不考慮
$C_k^n=n!/k!(n−k)! $ - 常用公式
\((2n)!!=(2n)(2n−2)…2\)
\(C_n^0+C_n^1+…+C_n^n=2^n\)
\(C_n^0+C_n^2+…=2^{n−1}\)
\(C_m^{n+m}+C_{m+1}^{n+m}=C_{m+1}^{n+m+1}\)
古典概型中涉及到一些計數公式;原以為除了在概率論的考試中涉及以后不會遇到,沒想到后來一次通選課的考試居然也涉及到了;在此補充。
- 高中時候講到的分類的加法原理、分步驟的乘法原理
- 有重復的排列數:n 種球放回取 m 次,共 \(n^m\)
- 排列數:無放回取 m 次,共 \(A_n^m={n!\over (n-m)!}\)
- 組合數:n 種球無放回取 m 次,不計順序,共 \(C_n^m=(\begin{matrix}n\\m\end{matrix})={n!\over m!(n-m)!}\)
- 分組方式數:n 個不同元素分為有順序的 k 組,共 \((\begin{matrix}n\\ n_1, ...,n_k\end{matrix})={n!\over n_1!...n_k!}\) 。形式上看是組合數的推廣,后者可以看做是特例,其關注的是兩組中的一組。直觀的對於公式的理解:n 個不同元素排列共 \(n!\) 種可能,將依次的 \(n_1,...,n_k\) 個元素認為是一組的,順序無關,所以分母上除以各自的組內排列的可能。再次注意,組間是有順序的。如 5 個元素分為 \((1,2,2)\) 三組,不講順序,則還要在公式上除以 2。
- 可重復分組數:n 個球有放回取 m 次,結果不計順序,共 \(C_{n+m-1}^{m}=C_{n+m-1}^{n-1}\) 。這里和上一中情況的區別在於取到的 m 個球隨機。需要換一種想法:和每個球標號序號,然后把 m 個球按序號排列,顯然就變成了有序的 n 組,其中有 \(n-1\) 個「空格」;反過來,我們還沒有取出球,但我們知道了最終的結果是 \(n-1\) 個分隔符分割了 m 個球(高中時候好像是用 0 和 1 來示意),也就是從 \(n+m-1\) 個元素中選 \(n-1\) 個分隔符,所以是 \(C_{n+m-1}^{m}=C_{n+m-1}^{n-1}\) 。注意,這里的每一個分組是非等可能的(前面的分組方式數按這種定義是等可能的)。
2 計算示例
- n雙相異的鞋共2n只,隨機分為n堆,每堆2只,問“各堆都自成一雙鞋”這一事件E的概率是多少?
- 對於把n個相異物件分成k堆,分法有 $n!/(r_1 !r_2 !…r_k !) $,注意上式是有序的,所以對於本題可分為 \(N=(2n)!/2^n\) 種(所有可能情況)。對於事件\(E\) ,可以看作把每一雙鞋看成一個整體分成n堆,可見有 \(M=n!\) 種可能性。於是 $P(E)=M/N=(2^n n!)/(2n)!=1/(2n−1)!! $
- 另一種算法:把這2n個鞋子從左到右排成一排,然后把1,2位置的看作一堆,3,4看成一堆。因此有所可能情況為種,而各成一堆的情況下,每組中第一個元素取定后,第二個元素是確定了的,因此可能的情況有$ (2n)(2n−2)…2=(2n)!!\(種,因此\)P(E)=M/N=2^n/(2n)!!=1/(2n−1)!!$
事件的關系與運算
1 基本關系與運算
上述已對隨機事件有所介紹,對於任一事件,我們想要用概率的方式去描述它。但是對於我們感興趣的復雜事件來說,直接計算其概率是困難的,因此我們希望能夠利用復雜事件與簡單事件之間的關系,以便利用簡單事件的概率去計算復雜事件的概率。正如微積分中,利用導數所滿足的法則,可據此計算出復雜函數的導數,若直接利用定義來計算則太過復雜。以下對於事件的關系和運算做簡單描述,很多是符合直覺的,注意這部分可以從集合論的角度來考慮。
- 蘊含、包含和相等
字面理解,若A蘊含B,也可說為B包含A,記為 \(A\subset B\),這意味着A發生則B一定發生,從集合論的角度來說A是B的子集,從韋恩圖上來看A被B所“包圍”。
- 互斥和對立
若A和B不能在同一次試驗內都發生,則稱它們為互斥的。對立事件是一種特殊的互斥事件,即B是A的補集,記作 $ B=\bar{A} $ 。
- 事件的和(並)
對於兩事件A和B,定義事件和\(C = \{A發生,或B發生\}\),記作 \(A\cup B\), 或 $A+B $,即為代表兩事件的集合的並集,通過韋恩圖來看更為直觀。
概率的加法定理:對於互斥事件,我們有,若干互斥事件之和的概率,等於各事件概率之和。即\(P(A_1+A_2+…)=P(A_1 )+P(A_2 )+…\)
- 事件的積(交)、事件的差
定義事件積\(C = \{A,B都發生\}\),記為 \(A\cap B\) 或 $AB $。
定義事件差 \(C = \{A發生,B不發生\}\),記為 \(A−B\) 。
容易看出上述定義的事件關系及其運算滿足以下性質。同時,雖然上面借用了算術中的相關名詞,算術法則不一定能用於計算事件運算(因為本質上可以說是集合之間的關系)。注:可以根據韋恩圖進行直觀的理解不需要死記硬背。
- 事件和、事件積的交換律、結合律
$A\cup B = B\cup A,AB=BA $
$A\cup B\cup C = (A\cup B)\cup C = A \cup (B\cup C), ABC = (AB)C = A(BC) $
- 事件和對事件積、事件積對事件和的分配律
$(A\cup B)C = AC\cup BC $
$(AB)\cup C = (A\cup C)(B\cup C) $
- 棣莫弗公式(對偶法則)
$\overline{A\cup B} =\bar{A}\cap\bar{B} $
$\overline{A\cap B} = \bar{A} \cup \bar{B} $
此公式可以推廣到n個事件:事件和的非等於事件非的積;事件積的非等於事件非的和。
當時怎么沒有介紹概率的加法公式,補充如下:
\[P(A\cup B)=P(A)+P(B)-P(AB) \]其推廣,Jordan 公式
\[P(\bigcup^n_{i=1}A_i)=\sum_{k=1}^n(-1)^{k-1}p_k \]其中
\[p_k=\sum_{1\le j_1\le j_2\le...\le n}P(A_{j_1}...A_{j_k}) \]可以根據韋恩圖直觀理解。
2 條件概率
條件概率是概率論中非常重要的概念,此后隨機變量的條件分布等一系列知識點需要建立在對於條件概率的理解上。一般來講,條件概率就是在附加一定條件之下所計算的概率。嚴格來說,現實中的任何概率都是條件概率:假定你在實驗室投擲硬幣,出現正面的頻率約為1/2,你只能說在此時此地,在這種試驗條件下,可以認為這枚硬幣是均勻的,試驗環境即為“條件”。形式化的定義:設有兩事件A,B,在給定B發生的條件下A的條件概率記為 \(P(A|B)\) :
其中,當\(P(B)=0\)時,上式無意義,因此在一般的定義中還要求\(P(B)\)不為零。當然,在高等概率論中也會給出在\(P(B)=0\)時概率的定義,在此不表。
3 事件的獨立性
一般情況下,A的無條件概率和在給定B發生之下的條件概率是有差異的,這反映了兩者之間的關聯。例如,若 $P(A|B)>P(A) $,則B的發生使A發生的可能性增加的,B促進了A的發生。反之,若 $P(A|B)=P(A) $,則B的發生與否與A發生的可能性無關,這就稱為兩事件獨立。因此上式即可作為事件獨立的定義。然而,根據條件概率的定義,上式等價於:
$P(AB)=P(A)P(B) $
在這條式子中,A和B是對稱的,即“A和B相互獨立”,更好得反映了事件獨立的概念,因此在一般的教材中采用此作為獨立性定義。推廣到多個事件,其獨立性定義如下:設 $A_1,A_2,...; $為有限或無限個事件,若從中任意取出有限個事件,都有:
則稱事件 \(A_1,A2,...\)(相互)獨立。注意,這個定義與由條件概率出發的定義等價:\(P(A_{i_{1}}|A_{i_{2}}...A_{i_{m}}) = P(A_{i_{1}})\) 對於任意的 $A_{i_1} $都成立。從這里也可以看到,n個事件獨立和此n個事件兩兩獨立是不同的,后者只能保證在“簡單條件”下某一事件的概率不受影響,但不意味着其他任意多個事件的發生與否與它是否有關聯。
在實際運用中,雖然我們常用兩種等價定義來形式化得證明事件的獨立性,但在更多的情況中,我們假定事件滿足獨立性,然后用\(P(A_{i_{1}}A_{i_{2}}...A_{i_{m}}) = P(A_{i_{1}})P(A_{i_{2}})...P(A_{i_{m}})\)式,從簡單事件的概率出發計算事件積的概率。因此,從另一個角度出發來看定義式,則可認為是獨立事件事件積的乘法公式。
4 全概率公式
對於一組事件 \(B_1,B_2,...\) 來說,若它們兩兩互斥,並且在每次試驗中至少發生一個(事件積為空,概率之和為1),則稱這組事件為一個“完備事件群”。形象地理解,這些事件對於所有可能發生的情況構成了一個分割,用集合論或文氏圖來理解更為直觀。例如,一個事件B和它的對立事件即構成完備事件群。考慮任一事件A, $A=A\Omega =AB_1 +AB_2 + ... $ ,因 $B_i $兩兩互斥,可見 \(AB_i\) 也兩兩互斥,因此有 \(P(A)= P(AB_1) +P(AB_2) + ...\) ,再由條件概率公式,
稱為全概率公式,即全部概率被分成許多部分之和,因此,在現實中,若某一事件A經常伴隨 \(B_i\) 發生,我們可以構造一組 \(B_i\) 來計算A的概率。
從另一個角度來理解,可以把 \(B_i\) 看作導致事件 \(A\) 發生的一種可能途徑。對不同途徑,A發生的概率即條件概率各各不同,而采取哪個途徑卻是隨機的。因此對於所有可能的途徑 $ P(B_i)$ 作加權平均。
特別的, \(A,\bar A\) 構成一個完備事件組,於是 \(P(B)=P(A)P(A|B)+P(A)P(A|\bar B)\)
補充一道題:證明 n 個簽中有 m 個為目標,無放回抽樣,則每一次「中簽」的概率均為 \(m/n\) 。
記抽中這一事件為 \(A_j\)。下用歸納法證明。首先,必有 \(P(A_1)=m/n\);假設上面的概率公式在 \(j-1\) 時成立,則對於第 j 次抽樣,我們用全概率公式:
\[P(A_j)=P(A_1)P(A_j|A_1)+P(\overline{A_1})P(A_j\overline {A_1}) \]這樣,后面的兩個條件概率就轉化成了 \(j-1\) 的形式,代入假設中的公式(分別為 \(m-1\over n-1\), \(m \over n-1\))即可得 \(P(A_j)={m\over n}\)
5 貝葉斯(逆概率)公式
由全概率公式可得著名的貝葉斯公式:
剛看到這個公式有點繞,似乎只是一個數學變換,更重要的是理解其意義。在等式的右邊,我們已知了 \(P(B_i)\) 和 $P(A|B_i) $,而在等式右邊,我們希望得到的是 $P(B_i|A) $,也就是在A發生的情況下,新的信息之下我們對於事件 \(B_i\) 的可能性有了新的認識。
如果我們把A看成“結果”,把看成導致者結果的可能“原因”,則可形象地把全概率公式看作成為“由原因推結果”,而貝葉斯公式作用在於“由結果推原因”:現在一個結果A發生了,在眾多可能的原因中,哪一個導致了結果。
好的說了這么多也不知道有沒有表達清楚,反正我一開始學的時候一臉懵逼,還是看一個例子理解一下:
- 某種病菌在人群中帶菌率為0.03,由於檢測技術存在一定的誤差,帶菌者檢測出陽性的概率為0.99,而未帶菌者檢出陽性的概率為0.05,問若一人檢測出陽性,其帶菌的概率。
- \(P(陽性|帶菌) = 0.99\); \(P(陽性|不帶菌) = 0.05\);\(P(帶菌)= 0.03\); 問 $P(帶菌|陽性) $
- 由貝葉斯公式,易得答案為 \(\frac{0.03\times0.99}{0.03\times0.99+0.97\times0.05} = 0.380\)
一個有趣的結論:檢測結果為陽性的患者帶菌的可能性不到0.4,理由很簡單:因為人群中帶菌率很低,即使誤檢的可能性很低,因為其基數很大,所以檢測結果為陽性的人中任有很大一部分是這些誤檢患者。
從這個例子也可以看出貝葉斯公式在統計學之中的重要意義。在統計學中,我們搜集相關的數據,希望能找到所感興趣問題的答案(由結果找原因),然而,在此之前,我們需要對其有一個大致的估計(即先驗概率),然后根據所得到的信息更新我們的估計(即后驗概率)。事實上,根據這個公式的思想發展了一整套統計推斷方法,叫做“貝葉斯統計”。
以下補充關於貝葉斯公式的論述
- 在貝葉斯公式中,我們把 \(P(B_i)\) 叫作先驗概率,它們的值是根據先前的只是和經驗確定出,既可以利用頻率和概率的關系來確定,也可以基於「主觀概率」來確定。
- $P(B_i|A) \(是在觀察到事件A后發生\)B_i $的概率,稱之為后驗概率,貝葉斯公式可以看成是從先驗概率到后驗概率的轉換公式。
貝葉斯公式在之后的無論什么課程中真的用的超級多……
另外,在《概率與統計》一書中,「補充知識」部分提到了和概率相關的一些內容,有助於對其理解,在此列出。
分為四部分:1. 關於概率論的起源;2. 幾何概型;3. 熵;4. 概率的另類應用(概率方法解決確定性問題)。
信息量;熵;熵定理(各事件等概率是熵最大為\(log(n)\) );熵增加原理