Dirichlet分布及其屬性


Dirichlet分布

在概率統計中,Dirichlet分布通常表示為clip_image002[7],是一個以正實數clip_image004[7]的向量為參數的連續多變量概率分布族。這是Beta分布的多元推廣。在貝葉斯統計中,狄氏分布很多情況下可作為先驗分布,其實Dirichlet分布是類別分布和多項分布的共軛先驗。

狄利克雷分布向無限維度的推廣便是狄利克雷過程。

Categorical分布

分類分布(有時也被不確切地稱為“離散分布”或“多項分布”)從K個概率中的一個來描述事件的發生概率。參數值必須在0、1之間,它們的和為1。分類分布是伯努利分布向多類隨機變量的推廣。

在分布的表達式中,令采樣空間是有限的整數序列。作為標簽,這些整數的值並不是重要的,他們可以是{0,1,…,K-1}或{1,2,…,K}或者其他任意值。為了方便,這里我們使用{1,2,…,K}。

概率密度函數為:

clip_image002[9]

clip_image004[9]表示元素clip_image006[7]發生的概率並且clip_image008[7]

另外一種更復雜但利於數學運算的表達式:

clip_image010[7]

clip_image012[7]表示:如果clip_image014[7]取值為1,否則為0.

嚴格意義上,分類分布可以看做是多項式分布的一種特殊形式(n=1)。

Dirichlet分布是分類分布和多項分布的共軛先驗,這意味着我們可以給分類分布的未知參數clip_image016[10]一個服從Dirichlet分布的先驗分布。然后,這個參數的后驗分布(結合觀測數據知識后)也是個Dirichlet分布。這樣我們便可以根據每次新的觀測值不斷的更新參數的分布模型。形式上,解釋如下:

假設模型:clip_image018[7]

我們有:clip_image020[7]

在給定分類分布的N個抽樣集時,可以利用這種關系來估計它的參數clip_image016[11]。此時:

clip_image023[7]

技術上,某些應用也可以采用:

clip_image025[7]

最大后驗估計 clip_image027[7]

邊緣似然:上述模型中,觀測值的邊緣似然是Dirichlet-multinomial分布

clip_image029[7]

這里使用了歐拉積分:clip_image031[7]

邊緣似然分布在分層貝葉斯模型中扮演着重要的角色,當使用Gibbs抽樣或變分貝葉斯來做推斷時,Dirichlet先驗分布經常需要邊緣化。

后驗預測分布:在已知X和clip_image033[7]時,新觀測值clip_image035[7]的取值分布,形式如下:

clip_image037[7]

結論:后驗預測概率是后驗分布的期望值。

從另一個角度來看: clip_image039[7]

新來數據會以較大的概率分配到以前出現次數較多的類中,這種情況可視作“偏好依附”模型。它與很多現實世界的過程相符,在模型下,起初少量數據點的選擇對以后數據的分配將產生巨大的影響。

后驗條件分布:在Gibbs抽樣中,我們需要在多變量貝葉斯網絡組成的條件分布(每一個變量都依賴於其他值)中進行抽樣。

對於一個數據集X,用clip_image041[10]表示除去clip_image043[7]的數據集,有:

clip_image045[10]

這里,clip_image047[7]表示clip_image041[11]中屬於第i類的數據個數。

抽樣過程:

// do multinomial sampling via cumulative method
    for (int k = 0; k < K; k++) {
    p[k] = (nw[w][k] + beta) / (nwsum[k] + Vbeta) *
            (nd[m][k] + alpha) / (ndsum[m] + Kalpha);    //1:得到屬於每一類的概率
    }//這就是ToTGibbs中的公式和text-est文件
    // cumulate multinomial parameters
    for (int k = 1; k < K; k++) {
    p[k] += p[k - 1];
    }                                            //2:得到累計概率分布
    // scaled sample because of unnormalized p[]
    double u = ((double)random() / RAND_MAX) * p[K - 1];
                                                //3:采樣均勻分布的值
    for (topic = 0; topic < K; topic++) {
    if (p[topic] > u) {
        break;
    }
}                                            //4:返回類別

Multinomial分布

在概率理論中,Multinomial分布是二項式分布的推廣。Multinomial分布給出了多類問題中,任意類別數組合的概率。

二項分布是n次伯努利分布中,兩類組合發生次數的概率分布。

注意:在自然語言處理領域,categorical和multinomial分布是混為一談的,當提到multinomial分布時實質意味着是categorical分布;當然,categorical也可以視為multinomial的特殊情況。

概率密度函數:假設袋子的球分為k類,我們做n次有放回抽樣。來自同一類的球是完全一樣的。我們用clip_image002[11]表示第i(i=1,…,k)類的球的次數。clip_image004[11]表示屬於第i類的概率。

clip_image006[9]

屬性:在n次實驗中,類i的數學期望

clip_image007

協方差矩陣:每一個對角線元素實質是二項分布,因此

clip_image008[9]

非對角線元素

clip_image009

所有的協方差都是負值,因為對於固定的數值n,多類中一類的增加勢必導致另類的減少。

返回Dirichlet分布,其概率密度表達式:

clip_image010[9]

其中,clip_image012[9]clip_image014[9]。上式中clip_image016[14]表示概率密度公式是個clip_image018[9]的歐式空間,在不滿足條件的空間里密度為0.

多項beta函數可以用gama函數表示:

clip_image019

特殊情況:一種比價常見的形式是對稱Dirichlet分布0,這里向量clip_image021的所有元素取相同值。因為我們通常沒有任何先驗的知識來確定某個分量要優於其他分量,所以當使用Dirichlet先驗時常使用其對稱形式。此時的標量clip_image021[1]稱為concentration parameter(濃度參數)。有:

clip_image022

clip_image024時,上式與clip_image026值無關等價於均勻分布。當clip_image028時,分布越趨於平穩,在一次抽樣中的所有值都趨於相同;當clip_image030時,分布越趨於尖銳,在一次抽樣中,大多數數值趨近於0,只有很少分量具有較大值。

更一般的情況,參數向量有時寫成clip_image032的形式,其中clip_image021[2]為標量濃度參數,clip_image035[9]是基測量(clip_image037[9]的和為1)。主題模型的文獻中經常使用這種構造。

屬性:假設

clip_image038

由定義得:

clip_image039[9]

clip_image041[14],則:

clip_image042

clip_image043[9]

而且,如果clip_image045[12]

clip_image046

邊緣分布:Dirichlet分布的邊緣分布是beta分布

clip_image047[9]

聚合性質:如果

clip_image048

clip_image049

這個性質可以用來推導出上面提到的邊緣分布。

相關分布:

1.對於clip_image051

clip_image052

2.

clip_image0532.

3.那么:

clip_image054

雖然clip_image056之間並不是相互獨立的,但他們可以通過K個獨立的gamma分布得到,詳見 Devroye, Luc (1986). Non-Uniform Random Variate Generation. Springer-Verlag. p. 594. (Chapter 11.)。

Gamma分布

使用Gamma分布,我們可以很容易地得到K維clip_image058Dirichlet分布的抽樣clip_image060。首先,從Gamma分布得到K個獨立的隨機抽樣clip_image062

clip_image063

然后得:

clip_image064


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM