本文始發於個人公眾號:TechFlow
這一講當中我們來探討三種經典的概率分布,分別是伯努利分布、二項分布以及多項分布。
在我們正式開始之前,我們先來明確一個概念,我們這里說的分布究竟是什么?
無論是在理論還是實際的實驗當中,一個事件都有可能有若干個結果。每一個結果可能出現也可能不出現,對於每個事件而言出現的可能性就是概率。而分布,就是衡量一個概率有多大。
伯努利分布
明確了分布的概念之后,我們先從最簡單的伯努利分布開始。
伯努利分布非常簡單,就是假設一個事件只有發生或者不發生兩種可能,並且這兩種可能是固定不變的。那么,顯然,如果假設它發生的概率是p,那么它不發生的概率就是1-p。這就是伯努利分布。
生活中所有只可能出現兩種結果並且概率保持不變的事件都可以認為服從伯努利分布,比如拋硬幣,比如生孩子是男孩還是女孩。
伯努利實驗就是做一次服從伯努利概率分布的事件,它發生的可能性是p,不發生的可能性是1-p。
二項分布
我們明確了伯努利分布之后再來看二項分布就簡單了。說白了二項分布其實就是多次伯努利分布實驗的概率分布。
以拋硬幣舉例,在拋硬幣事件當中,每一次拋硬幣的結果是獨立的,並且每次拋硬幣正面朝上的概率是恆定的,所以單次拋硬幣符合伯努利分布。我們假設硬幣正面朝上的概率是p,忽略中間朝上的情況,那么反面朝上的概率是q=(1-p)。我們重復拋n次硬幣,其中有k項正面朝上的事件,就是二項分布。
我們來試着推導一下二項分布的公式:
假設我們拋了4次硬幣,每一次都有兩種可能,既可能正面朝上,也可能反面朝上。所以一共存在\(2^4=16\)種情況,假設我們想知道4次當中有兩次正面朝上的概率。我們寫成\(P(X=2)\),它應該是多少呢?
我們先來看一種情況,假設某一次拋擲當中,我們的結果是正正反反,記作:OOXX。那么,它的概率應該是\(P=ppqq=p^2q^2\),但是這只是一種正面朝上兩次的情況,與它相同的情況還有:
以上的這5種都是兩次正面朝上的情況,都滿足要求,所以我們在計算概率的時候,需要乘上可能會導致兩個正面朝上的種數。也就是說我們知道某一種\(P(X=2)\)的情況發生的概率是\(p^2q^2\),但是這樣的情況一共有6種,所以我們需要乘上6.
那么我們怎么知道在n次試驗當中,X=k的情況存在多少種呢?
這里就需要用到排列組合的知識,我想這一塊在初高中數學課本上都有涉及。我們簡單回顧一下。
排列
排列,指的是從n個項目當中選出k個來排成一排的情況種數。
我們設想一下,假設面前有5個人,我們要選出兩個人來排成一排,一共有幾種情況呢?由於是排列,所以這帶個人的排列順序是會對結果產生影響的。同樣是AB兩個人,A和B與B和A會被視為不同的情況。所以,顯然第一個人有5種選擇,第二個人有4種選擇,所以總共有20種選擇。
我們推廣這個公式,當人數是n,候選人數是k的時候,情況種數應該是:
組合
組合和排列很類似,唯一不同的是在組合當中不用考慮選出項的次序情況。排列是選出人來排成一排,那么組合是選出人來一起去做某件事。這些選出的人先后次序並不重要,重要的是組成。
還是5個人里挑選兩個的情況,第一個人有5種選擇,第二個人有4種選擇。但這里我們還需要去除這選出來的兩個人的排列的情況。2個人的排列一共有2種,所以最后的結果是5 * 4 / 2=10.
我們來推導一下公式,n個人里面選k個的排列有\(\frac{n!}{(n-k)!}\),而k個人的全排列有:\(k!\)種,所以兩者相除就是組合數的結果:
我們有了組合的公式之后,帶入前文當中二項分布。我們做n次試驗,其中有k個發生某事件的情況總數是\(C_n^k\),所以總體的概率\(P(X=k)=C_n^kp^kq^{n-k}\)。
我們明白了二項分布之后,繼續來看多項式分布。
多項式分布
多項式分布也很簡單,是在二項分布的基礎上進一步的拓展。
在現實世界當中,並不是所有事件都只有兩個結果,最簡單的例子就是骰子。我們每次投骰子會產生1-6,一共6種結果。我們假設這6種結果發生的概率分別是p1, p2, p3, p4, p5和p6,那么顯然\(\sum_{i=1}^6p_i=1\)。在多項式分布當中,我們會問進行n次試驗,這6種可能性分別出現的次數是(x1, x2, x3, x4, x5, x6)的概率是多少?
顯然,如果\(\sum_{i=1}^6x_i \neq n\),那么概率為0. 我們討論相等時候的情況。
我們先計算一種組合發生的概率,不論這n項的順序如何,顯然都有\(P=p_1^{x_1}p_2^{x_2}\cdots p_6^{x_6}\),那么這樣的組合一共有多少個呢?
我們用組合公式來計算,首先是從n項中選出x1項來,一共有:\(C_n^{x_1}=\frac{n!}{(n-x_1)!x_1!}\)。接着我們再選x2項,一共有:\(C_{n-x_1}^{x_2}=\frac{(n-x_1)!}{(n-x_1-x_2)!x_2!}\)。我們依次寫出這6項,然后乘到一起,消除同類項之后,得到的結果是:
最終的概率就是組合數乘上單個組合的概率:
我們對比它和二項分布的公式,會發現,其實二項分布就是多項分布的一種特殊情況。而伯努利分布就是二項分布中n=1的特殊情況。這三種分布雖然各不相同,但是本質之間有着很深的聯系,也因此,我們將它們放在一篇文章當中介紹。
到這里,關於這三種分布的介紹就結束了。如果覺得學有收獲,就掃碼給個關注吧~