說人話理解 伯努利分布&二項分布&泊松分布&指數分布是什么關系?


開始介紹之前還是老樣子先吐槽一下教科書不說人話,喜歡端着,真是耽誤了一群數學天才。

伯努利分布

伯努利分布很好理解,常見的例子就是拋硬幣,假設硬幣正面朝上的概率是 p,所以伯努利分布的概率質量函數(probability mass function,簡寫作pmf)是:

注意區分概率質量函數和概率密度函數,前者是針對離散情況而言的,后者是針對連續情況

\[f_{X}(x)=p^{x}(1-p)^{1-x}= \begin{cases}p & \text { if } x=1 \\ q & \text { if } x=0\end{cases} \]

二項分布

上面只是一個實驗,如果拋10次有8次是正面朝上的概率就是 \(C_{10}^8 p^8(1-p)^2\),這個其實就是二項分布,換言之二項分布的每一個單次實驗其實就是服從伯努利分布。二項分布的概率質量函數

\[f(k, n, p)=\operatorname{Pr}(X=k)=\left(\begin{array}{l} n \\ k \end{array}\right) p^{k}(1-p)^{n-k} \]

泊松分布

那泊松分布是什么呢?其實現實中很多事情都可以用泊松分布來描述,而且其實泊松分布可以簡單地是伯努利分布的極限情況。

我們看一個馬同學給的例子

假如你開了個饅頭店,每天營業時間是早上12點到下午6點,是的你就是這么仁慈,員工得休息好才能好好上班。然后你統計了一周的顧客數量,發現每天來的人顧客數量不一樣。那很自然地你就想根據來的顧客的數量來提前准備制作饅頭的數量,免得顧客數量多的時候,饅頭數量不夠,導致鈔票賺少了。同樣的,如果饅頭做多了,又浪費了。所以你想知道每天顧客數量是100的概率(也可以是200,400等)。要計算這個就需要用到泊松分布。

為方便計算,假設你的店新開張,總共5個顧客來消費了,分別是在1點,2點,3點,4點和6點到的,此時我們可以把整個營業時間划分成6個時間段,那么每個時間段顧客來與不來其實就是一個服從伯努利分布的隨機變量。假設每個時間段內來顧客的概率是 p, 那么一天內來5個顧客的概率就是 \(C_{6}^5 p^5(1-p)^1\)

看到這你肯定在想了,那如果第一天開張來了10個顧客呢?是的,你的想法很好。此時我們可以把時間段划分的更加小,可以是秒也可以是分鍾。不過單位時間的划分會影響最后計算出來的概率值,當然這也是符合直覺的。例如,一個小時內來10個顧客的概率肯定和一分鍾內來10個顧客的概率一般而言是不一樣的。

我們可以假設總共划分了\(n\)個時間段,當\(n\)趨於無窮小的時候,每個時間段也就趨於無窮小了,那么在這\(n\)個時間段來了\(k\)個顧客的概率(一個時間段內最多只有一個顧客出現或者沒有顧客)是

\[\lim _{n \rightarrow \infty}\left(\begin{array}{l} n \\ k \end{array}\right) p^{k}(1-p)^{n-k} \]

發現了沒,這不就是二項分布嗎?所以這也就解釋了前面我們說泊松分布可以簡單地是伯努利(或二項)分布的在時間段是極限小的情況。因為我們說拋硬幣的時候通常是不考慮時間的,即基本上不會說我們每分鍾或者每秒拋一次硬幣,而泊松分布是將時間划分成若干個時間段,而這個時間段的大小視情況而定。

因為連續時間上的泊松分布被轉化成了二項分布,而二項分布的期望是

\[E(X)=np=\mu \]

所以在這\(n\)個時間段來了\(k\)個顧客的概率

\[p=\frac{\mu}{n} \]

我們把這個概率帶入到上面的極限中去可以得到(推導過程省略了)

\[\lim _{n \rightarrow \infty}\left(\begin{array}{l} n \\ k \end{array}\right) p^{k}(1-p)^{n-k}=\frac{\mu^{k}}{k !} e^{-\mu} \]

可以看到當時間段趨於無窮小時,最終得到的概率是與\(n\)無關的,只跟均值和你想預測的\(k\)有關。一般會把\(\mu\)\(\lambda\)表示,所以泊松分布下的概率質量函數(注意泊松分布也是離散的概率分布)是

\[P(X=k)=\frac{\lambda^{k}}{k !} e^{-\lambda} \]

那么根據今天新開張的數據,均值\(\mu\)(或者說\(\lambda\))的值就是\(\frac{5}{6}\),開門營業的時間越久,才會評估越准確。我們用這個網站畫出了概率質量函數,可以看到單位時間(該例子單位時間是一個小時)內一個顧客都沒來的概率接近0.5,來2個顧客的概率只有0.151,所以說你還是趁早把店鋪轉租出去,好好進廠里搬磚吧。

Poission Distribution

指數分布

指數分布是從泊松分布推斷出來,泊松分布考慮的是在單位時間內顧客數量平均為\(\lambda\)的情況下,單位時間內來k個顧客的概率。那么單位時刻,一個顧客都沒來的概率就是\(P(X=0)=e^{-\lambda}\)。我們進一步考慮\(T\)個時間段內都沒來一個顧客的概率,這個時候該如何計算呢?

注意,泊松分布假設成立的前提是事件是獨立的,換言之前一時刻和后一時刻顧客數量的概率是彼此獨立的。所以T個時間段內都沒有顧客到達的概率可以通過將每個時間段沒有顧客到達概率相乘來計算,即:

\[P(\text{No arrival in T time intervals}) = P(\text{No arrival in one time interval})^T = (e^{-\lambda})^T = e^{-\lambda T} \]

T個時間段內都沒有顧客到達的概率 等價於 超過T個時間段后才有顧客到來,我們將T轉換成時間變量t就得到了指數分布

\[P(t>T)=P(t>T,X=k=0)=\frac{(\lambda t)^{k}}{k !} e^{-\lambda t}=e^{-\lambda t} \]

同理,T時刻內有顧客來的概率則是

\[P(t\le T)=1-P(t>T)=1-e^{-\lambda t} \]

所以指數分布的累積分布函數是

\[F(t)= \begin{cases}1-e^{-\lambda t}, & t \geq 0 \\ 0, & t<0\end{cases} \]

\(F(t)\)求導后可以得到概率密度函數(注意這里不是概率質量函數了,因為指數分布是連續分布):

\[p(t)= \begin{cases}\lambda e^{-\lambda t}, & t \geq 0 \\ 0, & t<0\end{cases} \]

對應到上面的例子,我們在這個網站上可視化一下。\(\lambda\)是來的顧客數量平均均值,在前面的例子中,我們觀察了6個小時,發現總共有5個顧客來了,那么均值\(\lambda=\frac{5}{6}\)人/小時,據此我們可以畫出此時的指數分布的概率密度函數

image

因為我們上面的例子考慮的是每小時的顧客數,所以\(x=1\)時,計算得到的\(p(X>1)\)表示1小時都沒有顧客(即大於1小時才有可能來顧客)的概率是0.4346,這表示你開的店每小時大概率還是有人會來關顧的哈哈哈

注意泊松分布和指數分布的前提是,事件之間不能有關聯,否則就不能運用上面的公式。

總結

伯努利分布 > 二項分布 > 泊松分布 > 指數分布 就是一個個套娃的關系。

微信公眾號:AutoML機器學習
MARSGGBO原創
如有意合作或學術討論歡迎私戳聯系~
郵箱:marsggbo@foxmail.com

2022-04-16 22:29:56


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM