指數家族-Beta分布

本文轉載自查看原文 2019-07-09 21:01 537 機器學習

2. Beta分布

2.1 Beta分布

我們將由幾個問題來得引出幾個分布：

問題一：
1： $X_1,X_2,\cdots,X_n\overset{iid}{\sim}Uniform(0,1)$
2：把這個 $n$ 個隨機變量排序后得到順序統計量 $X_{(1)},X_{(2)},\cdots,X_{(n)}$
3：問 $X_{(k)}$ 是什么分布

首先我們嘗試計算 $X_{(k)}$ 落在一個區間 $[x,x+\Delta x]$ 的概率，也就是如下概率值：

$P(x\leq X_{(k)}\leq x+\Delta x)=?\\$
我們可以把 $[0,1]$ 分成三段 $[0,x),[x,x+\Delta x],(x+\Delta x,1]$ 。

我們考慮第一種情形：假設 $n$ 個數中只有一個落在區間 $[x,x+\Delta x]$ 內，則這個區間內的數 $X_{(k)}$ 是第 $k$ 大的，則 $[0,x)$ 中應該有 $k-1$ 個數， $(x+\Delta x,1]$ 中有 $n-k$ 個數，我們將此描述為事件 $E$ ：

$\begin{align*}E&=\{X_1\in[x,x+\Delta x], \\&X_i\in [0,x)(i=2,\cdots,k) \\&X_j\in (x+\Delta x,1](j=k+1,\cdots,n)\}\end{align*}\\$

則有:

$\begin{align*}P(E)&=\prod_{i=1}^{n}P(X_i) \\&=x^{k-1}(1-x-\Delta x)^{n-k}\Delta x \\&=x^{k-1}(1-x)^{n-k}\Delta x+o(\Delta x)\end{align*}\\$
$o(\Delta x)$ 是 $\Delta x$ 的高階無窮小。顯然 $n$ 個數落在 $[x,x+\Delta x]$ 區間有 $n$ 種取法，余下 $n-1$ 個數中有 $k-1$ 個數落在 $[0,x)$ 中有 $\binom{n-1}{k-1}$ 種組合，所以和事件 $E$ 等價的事件一共有 $n\binom{n-1}{k-1}$ 個。

考慮第二種情形：假設 $n$ 個數中只有兩個落在區間 $[x,x+\Delta x]$ 內：

$\begin{align*}E'&=\{X_1,X_2\in[x,x+\Delta x], \\&X_i\in [0,x)(i=3,\cdots,k) \\&X_j\in (x+\Delta x,1](j=k+1,\cdots,n)\}\end{align*}\\$
則有:

$\begin{align*}P(E')&=\prod_{i=1}^{n}P(X_i) \\&=x^{k-2}(1-x-\Delta x)^{n-k}(\Delta x)^2 \\&=o(\Delta x)\end{align*}\\$

從以上分析可以得到：只要落在 $[x,x+\Delta x]$ 內的數字超過一個，則對應的事件的概率就是 $o(\Delta x)$ ，於是：

$\begin{align*}&P(x\leq X_{(k)}\leq x+\Delta x) \\&=n\binom{n-1}{k-1}P(E)+o(\Delta x) \\&=n\binom{n-1}{k-1}x^{k-1}(1-x)^{n-k}\Delta x+o(\Delta x)\end{align*}\\$
所以得到 $X_{(k)}$ 的概率密度函數是：

$\begin{align*}f(x)&=\underset{\Delta x\rightarrow 0}{lim}\frac{P(x\leq X_{(k)}\leq x+\Delta x)}{\Delta x} \\&=n\binom{n-1}{k-1}x^{k-1}(1-x)^{n-k} \\&=\frac{n!}{(k-1)!(n-k)!}x^{k-1}(1-x)^{n-k},x\in[0,1]\end{align*}\\$
我們知道利用Gamma函數可以把很多數學概念從整數集合延拓到實數集合。

我們在上式中取 $\alpha=k,\beta=n-k+1$ ，於是得到：

$f(x)=\frac{\Gamma(\alpha+\beta)}{\Gamma(\alpha)\Gamma(\beta)}x^{\alpha-1}(1-x)^{\beta -1}\\$
這就是Beta分布了。

我們取Beta分布的峰值是勝率最大的。

2.2 可視化Beta分布

import numpy as np
from scipy.stats import beta
from matplotlib import pyplot as plt

alpha_values = [1/3,2/3,1,1,2,2,4,10,20]
beta_values = [1,2/3,3,1,1,6,4,30,20]
colors =  ['blue', 'orange', 'green', 'red', 'purple', 
           'brown', 'pink', 'gray', 'olive']
x = np.linspace(0, 1, 1002)[1:-1]

fig, ax = plt.subplots(figsize=(14,9))

for a, b, c in zip(alpha_values, beta_values, colors):
    dist = beta(a, b)
    plt.plot(x, dist.pdf(x), c=c,label=r'$\alpha=%.1f,\ \beta=%.1f$' % (a, b))

plt.xlim(0, 1)
plt.ylim(0, 6)

plt.xlabel('$x$')
plt.ylabel(r'$p(x|\alpha,\beta)$')
plt.title('Beta Distribution')

ax.annotate('Beta(1/3,1)', xy=(0.014, 5), xytext=(0.04, 5.2),
            arrowprops=dict(facecolor='black', arrowstyle='-'))
ax.annotate('Beta(10,30)', xy=(0.276, 5), xytext=(0.3, 5.4),
            arrowprops=dict(facecolor='black', arrowstyle='-'))
ax.annotate('Beta(20,20)', xy=(0.5, 5), xytext=(0.52, 5.4),
            arrowprops=dict(facecolor='black', arrowstyle='-'))
ax.annotate('Beta(1,3)', xy=(0.06, 2.6), xytext=(0.07, 3.1),
            arrowprops=dict(facecolor='black', arrowstyle='-'))
ax.annotate('Beta(2,6)', xy=(0.256, 2.41), xytext=(0.2, 3.1),
            arrowprops=dict(facecolor='black', arrowstyle='-'))
ax.annotate('Beta(4,4)', xy=(0.53, 2.15), xytext=(0.45, 2.6),
            arrowprops=dict(facecolor='black', arrowstyle='-'))
ax.annotate('Beta(1,1)', xy=(0.8, 1), xytext=(0.7, 2),
            arrowprops=dict(facecolor='black', arrowstyle='-'))
ax.annotate('Beta(2,1)', xy=(0.9, 1.8), xytext=(0.75, 2.6),
            arrowprops=dict(facecolor='black', arrowstyle='-'))
ax.annotate('Beta(2/3,2/3)', xy=(0.99, 2.4), xytext=(0.86, 2.8),
            arrowprops=dict(facecolor='black', arrowstyle='-'))

plt.legend(loc=0)
plt.show()

從圖中可以看出，Beta分布可以是凹的、凸的、單調上升的、單調下降的；可以是曲線也可以是直線，而均勻分布也特殊的Beta分布。可以嘗試改下參數，看看Beta分布的各種形態。

2.3 Beta-Binomial共軛

問題二：
1： $X_1,X_2,\cdots,X_n\overset{iid}{\sim}Uniform(0,1)$ ，排序后對應的順序統計量 $X_{(1)},X_{(2)},\cdots,X_{(n)}$ ，我們要猜測 $p=X_{(k)}$ ；
2： $Y_1,Y_2,\cdots,Y_m\overset{iid}{\sim}Uniform(0,1) ，Y_i$ 中有 $m_1$ 個比 $p$ 小， $m_2$ 個比 $p$ 大；
3：問 $P(p|Y_1,Y_2,\cdots,Y_m)$ 是什么分布

由於 $p=X_{(k)}$ 在 $X_{(1)},X_{(2)},\cdots,X_{(n)}$ 中是第 $k$ 大的，我們容易推得到 $p=X_{(k)}$ 在 $X_{(1)},X_{(2)},\cdots,X_{(n)},Y_1,Y_2,\cdots,Y_m\overset{iid}{\sim}Uniform(0,1)$ 這 $(m+n)$ 個獨立隨機變量中是第 $k+m_1$ 大的。可以按上一節的推導，此時 $p=X_{(k)}$ 的概率密度是 $Beta(p|k+m_1,n-k+1+m_2)$ 。

按貝葉斯推導的邏輯：
1)： $p=X_{(k)}$ 是我們要猜測的參數，我們推導出 $p$ 的分布是 $f(p)=Beta(p|k,n-k+1)$ ，稱為 $p$ 的先驗分布。
2)：數據 $Y_i$ 中有 $m_1$ 個比 $p$ 小， $m_2$ 個比 $p$ 大， $Y_i$ 相當於做了 $m$ 次貝努力實驗，所以 $m_1$ 服從二項分布 $B(m,p)$ 。
3)：在給定來自數據的提供的 $(m_1,m_2)$ 知識后， $p$ 的后驗分布為 $f(p|m_1,m_2)=Beta(p|k+m_1,n-k+1+m_2)$

貝葉斯參數估計的基本過程是：

先驗分布+數據知識=后驗分布

因此可以得到：

$Beta(p|k,n-k+1)+BinomCount(m_1,m_2)=Beta(p|k+m_1,n-k+1+m_2)\\$

更一般的，對於非負實數 $\alpha,\beta$ ，我們有如下關系：

$Beta(p|\alpha,\beta)+BinomCount(m_1,m_2)=Beta(p|\alpha+m_1,\beta+m_2)\\$

以上式子實際上描述的就是Beta-Binomial共軛。共軛意思是先驗和后驗都服從同一個分布形式。這種形式不變，我們能夠在先驗分布中賦予參數很明確的物理意義，這個物理意義可以延伸到后驗分布中進行解釋，同時從先驗變換到后驗的過程中從數據中補充的知識也容易有物理解釋。（我感覺有共軛后計算更容易哈，因為形式都知道了，其他的就是湊參數了。還有另一個好處是:每當有新的觀測數據，就把上次的后驗概率作為先驗概率，乘以新數據的likelihood，然后就得到新的后驗概率，而不必用先驗概率乘以所有數據的likelihood得到后驗概率。）

從前面的過程中可以知道，Beta分布中的參數 $\alpha,\beta$ 也可以理解為物理計數，這兩個參數經常被稱為偽計數(pseudo-count)。基於以上邏輯，我們可以把 $Beta(p|\alpha,\beta)$ 寫成下式來理解：

$Beta(p|1,1)+BinomCount(\alpha-1,\beta-1)=Beta(p|\alpha,\beta)\\$
其中 $Beta(p|1,1)$ 恰好的均勻分布 $Uniform(0,1)$ 。

對於上式，可以從貝葉斯角度來理解。假設有一個不均勻的硬幣拋出正面的概率是 $p$ ，拋 $m$ 次后得到正面和反面的次數分別為 $m_1,m_2$ 次，那按傳統概率學派的觀點， $p$ 的估計是 $\hat{p}=\frac{m_1}{m}$ 。而從貝葉斯學派的角度來看，開始對硬幣的不均勻性一無所知，所以假設 $p\sim Uniform(0,1)$ ，於是有了二項分布的計數 $(m_1,m_2)$ 后，按照貝葉斯的公式計算 $p$ 的后驗分布：

$\begin{align*}P(p|m_1,m_2)&=\frac{P(p)P(m_1,m_2|p)}{P(m_1,m_2)} \\&=\frac{1\cdot P(m_1,m_2|p)}{\int_0^1P(m_1,m_2|t)dt} \\&=\frac{\binom{m}{m_1}p^{m_1}(1-p)^{m_2}}{\int_0^1 \binom{m}{m_1}t^{m_1}(1-t)^{m_2}dt} \\&=\frac{p^{m_1}(1-p)^{m_2}}{\int_0^1 t^{m_1}(1-t)^{m_2}dt}\end{align*}\\$
計算得到后驗分布為正好是： $Beta(p|m_1+1,m_2+1)$

前面從二項分布推導Gamma分布的時候，使用了如下等式：
$P(x\leq K)=\frac{n!}{k!(n-k-1)!}\int_{p}^{1}t^k(1-t)^{n-k-1}dt\\$
左邊是二項分布的概率累積，右邊是 $Beta(t|k+1,n-k)$ 分布的概率累積。現在我們來證明這個等式。

我們構造如下二項分布，取隨機變量 $X_1,X_2,\cdots,X_n\overset{iid}{\sim}Uniform(0,1)$ ，一個成功的貝努力實驗就是 $X_i$

我們可以得到：
$P(C\leq k)=P(X_{(k+1)}>p)\\$
此處 $P(X_{(k+1)})$ 是順序統計量，為第 $k+1$ 大的數。上述等式意思是：成功至多 $k$ 次等於第 $k+1$ 大的數必定失敗（即失敗至少 $n-k$ 次）。由於 $X_{(t+1)}\sim Beta(t|k+1,n-k)$ ，於是

$\begin{align*}P(C\leq k)&=P(X_{(k+1)}>p) \\&=\int_p^1 Beta(t|k+1,n-k)dt \\&=\frac{n!}{k!(n-k-1)!}\int_{p}^{1}t^k(1-t)^{n-k-1}dt\end{align*}\\$

2.4 Beta分布的應用

1. 棒球擊球率

那么我們簡單說個Beta-Binomial共軛的應用。用一句話來說，beta分布可以看作一個概率的概率分布，當你不知道一個東西的具體概率是多少時，它可以給出了所有概率出現的可能性大小。

舉一個簡單的例子，熟悉棒球運動的都知道有一個指標就是棒球擊球率(batting average)，就是用一個運動員擊中的球數除以擊球的總數，我們一般認為0.266是正常水平的擊球率，而如果擊球率高達0.3就被認為是非常優秀的。現在有一個棒球運動員，我們希望能夠預測他在這一賽季中的棒球擊球率是多少。傳統的頻率學派會直接計算棒球擊球率，用擊中的數除以擊球數，但是如果這個棒球運動員只打了一次，而且還命中了，那么他就擊球率就是100%了，這顯然是不合理的，因為根據棒球的歷史信息，我們知道這個擊球率應該是0.215到0.36之間才對。對於這個問題，我們可以用一個二項分布表示（一系列成功或失敗），一個最好的方法來表示這些經驗（在統計中稱為先驗信息）就是用beta分布，這表示在我們沒有看到這個運動員打球之前，我們就有了一個大概的范圍。beta分布的定義域是 $(0,1)$ 這就跟概率的范圍是一樣的。接下來我們將這些先驗信息轉換為beta分布的參數，我們知道一個擊球率應該是平均0.27左右，而他的范圍是0.21到0.35，那么根據這個信息，我們可以取 $\alpha=81,\beta=219$ 。（這樣取值可以從Beta的均值和分布考慮）

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 如何通俗理解 beta 分布指數分布 Beta分布深入理解泊松分布和指數分布指數分布Exponential Distribution 指數分布與泊松分布的關系通俗講解Dirichlet分布和beta分布——Beta分布是二項分布的共軛先驗，用大白話講是，Beta分布描述了二項分布中p取值的可能性，那么Dirichlet分布久是描述多項式分布中p的可能性了如何通俗理解貝葉斯推斷與beta分布？統計學_Exponential Distribution指數分布說人話理解伯努利分布&二項分布&泊松分布&指數分布是什么關系？