關於Beta分布、二項分布與Dirichlet分布、多項分布的關系


    在機器學習領域中,概率模型是一個常用的利器。用它來對問題進行建模,有幾點好處:1)當給定參數分布的假設空間后,可以通過很嚴格的數學推導,得到模型的似然分布,這樣模型可以有很好的概率解釋;2)可以利用現有的EM算法或者Variational method來學習。通常為了方便推導參數的后驗分布,會假設參數的先驗分布是似然的某個共軛分布,這樣后驗分布和先驗分布具有相同的形式,這對於建模過程中的數學推導可以大大的簡化,保證最后的形式是tractable。

    在概率模型中,Dirichlet這個詞出現的頻率非常的高。初始機器學習的同學或者說得再廣一些,在學習概率模型的時候,很多同學都不清楚為啥一個表現形式如此奇怪的分布Dirichlet分布會出現在我們的教科書中,它是靠啥關系攀上了多項分布(Multinomial distribution)這個親戚的,以至於它可以“堂而皇之”地扼殺我大天朝這么多數學家和科學家夢想的?為了引出背后這層關系,我們需要先介紹一個概念——共軛先驗(Conjugate Prior)

  • Conjugate Prior: In Bayesian probability theory, if the posterior distributions p(θ|x) are in the same family as the prior probability distribution p(θ), the prior and posterior are then called conjugate distributions, and the prior is called a conjugate prior for the likelihood. ----from wiki
  • 用中文來講,在貝葉斯統計理論中,如果某個隨機變量Θ的后驗概率 p(θ|x)和氣先驗概率p(θ)屬於同一個分布簇的,那么稱p(θ|x)和p(θ)為共軛分布,同時,也稱p(θ)為似然函數p(x|θ)的共軛先驗。

    介紹了這個重要的概念之后,我們回到文章的正題。首先需要弄清楚什么是二項分布(Binomial distribution)。這個概念是從伯努利分布推進的。伯努利分布是一個離散型的隨機分布,其中的隨機變量只有兩類取值,非正即負{+,-}。二項分布即重復n次的伯努利試驗,記為 X~b(n,p)。概率密度函數(概率質量函數)為P(K=k)=\binom{n}{k}p^k(1-p)^{n-k}。再來看看Beta分布,給定參數\alpha>0\beta>0,取值范圍為[0,1]的隨機變量x的概率密度函數f(x;\alpha,\beta)=\frac{1}{B(\alpha,\beta)}x^{\alpha-1}(1-x)^{\beta-1},其中\frac{1}{B(\alpha,\beta)}=\frac{\Gamma(\alpha+\beta)}{\Gamma(\alpha)\Gamma(\beta)}\Gamma(z)=\int_0^{\infty}t^{z-1}e^{-t}dt。這里假定,先驗分布和似然概率如下所示:

p(x)=\frac{1}{B(\alpha,\beta)}x^{\alpha-1}(1-x)^{\beta-1}
p(y|x)=\binom{n}{k}x^k(1-x)^{n-k}

那么很容易知道后驗概率為

p(x|y)=\frac{1}{B(\alpha+k,\beta+n-k)}x^{\alpha+k-1}(1-x)^{\beta+n-k-1}

     弄清楚了Beta分布和二項分布之間的關系后,對於接下來的Dirichlet 分布和多項分布(Multinomial distribution)的關系理解將會有非常大的幫助。多項分布,從字面上所表現出的含義,我們也大抵知道它的意思。它本身確實也是這樣的,其單次試驗中的隨機變量的取值不再是0-1的,而是有多種離散值可能(1,2,3...,k),其中\sum_{i=1}^k{p_i}=1,p_i>0 。多項分布的概率密度函數為P(x_1,x_2,...,x_k;n,p_1,p_2,...,p_k)=\frac{n!}{x_1!\cdot\cdot\cdot x_k!}p_1^{x_1}\cdot\cdot\cdot p_k^{x_k}。而Dirichlet分布的的密度函數形式也如出一轍:f(x_1,x_2,...,x_k;\alpha_1,\alpha_2,...,\alpha_k)=\frac{1}{B(\alpha)}\prod_{i=1}^k{x_i^{\alpha^i-1}},其中B(\alpha)=\frac{\prod_{i=1}^k\Gamma(\alpha^i)}{\Gamma(\sum_{i=1}^k{\alpha^i})},\sum{x_i}=1。到這里,我們可以看到Beta分布和Dirichlet 分布有多相似啊,二項分布和多項分布有多相似啊

     再一次來看看共軛。假設x=(x_1,x_2,...,x_k)有先驗分布

p(x;\alpha_1,\alpha_2,...,\alpha_k)=\frac{1}{B(\alpha)}\prod_{i=1}^k{x_i^{\alpha^i-1}}

另有似然函數

p(y|x)=\frac{n!}{n_1!\cdot\cdot\cdot n_k!}x_1^{n_1}\cdot\cdot\cdot x_k^{n_k},

則后驗概率

p(x|y)=\frac{1}{Z}\prod_{i=1}^k{x_i^{\alpha^i+n_i-1}}

,和Dirichlet 分布形式一致。

    其實,細心的讀者已經發現,這里這四類分布,如果但從數學形式上看,它們的組織形式都是一致的,都是通過乘積的形式構成,加上先驗分布、似然函數和后言分布之間的乘積推導關系,可以很容易發現,它們所表現出的共軛性質很容易理解。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM