[MCSM]Exponential family: 指數分布族


Exponential family(指數分布族)是一個經常出現的概念,但是對其定義並不是特別的清晰,今天好好看了看WIKI上的內容,有了一個大致的了解,先和大家分享下。本文基本是WIKI上部分內容的翻譯。

1. 幾個問題

    什么是指數分布族?

    既然是”族“,那么族內的共同特點是什么?

    為何指數分布族被廣泛應用?是指數分布族選擇了我們,還是我們選擇了指數分布族?(這個問題沒有回答,需要結合具體實例分析)

2. 參考

Exponential family. (2015, February 26). In Wikipedia, The Free Encyclopedia. Retrieved 05:00, April 3, 2015, from http://en.wikipedia.org/w/index.php?title=Exponential_family&oldid=648989632

3. 指數分布族: 定義

    指數分布族指概率分布滿足以下形式的分布

b57129e126a3

    其中($\theta$,$x$也可以是標量)

dcd936d29cca 5982eb082a7a

    Exponential family ,也稱 Exponential Class,包括了很多常見的分布。譬如

normal, exponential, gamma, chi-squared, beta, Dirichlet, Bernoulli, categorical, Poisson, Wishart, Inverse Wishart.

    分布函數中的T (x ) , η (θ  ) 和 A(η )並不是任意定義的,每一部分都有其特殊的意義。

        T (x )是分布的充分統計量(sufficient statistic

        η 是自然參數。對於有限的函數24fd61a689be而言, η 的集合被稱為自然參數空間。

        A(η )被稱為對數配分函數(partition function ),實際上它是歸一化因子的對數形式。它使得概率分布積分為1的條件得到滿足。

da3843a729d8

        上式可以看出,通過對 A(η )求導,容易得到充分統計量T (x )的均值,方差和其他性質。(怎么求?)

4. 指數分布族:性質

    指數分布族具有很多性質,這些性質使得指數分布族在統計分析具有重要作用。並且在很多情況下,只有指數分布族具有那些性質。其中包括

    不太懂,怕弄錯,還是給原文好了。

    具體解釋如下(沒看到的就不解釋了……): 

  (1) 指數函數的充分統計量的可以從大量的i.i.d.數據中歸結為估計的幾個值(即T (x )),這點在 sufficient statistics中也有說明

According to the Pitman–Koopman–Darmois theorem, among families of probability distributions whose domain does not vary with the parameter being estimated, only in exponential families is there a sufficient statistic whose dimension remains bounded as sample size increases. Less tersely, suppose 96e59ce00d04 are independent identically distributed random variables whose distribution is known to be in some family of probability distributions. Only if that family is an exponential family is there a (possibly vector-valued) sufficient statistic 35823260f2eb whose number of scalar components does not increase as the sample size n increases.

This theorem shows that sufficiency (or rather, the existence of a scalar or vector-valued of bounded dimension sufficient statistic) sharply restricts the possible forms of the distribution.

    (2)指數分布族具有共軛先驗特性。可參考本文“術語解釋”。

5. 指數分布族:舉例

    正態分布

917255a803ae

    這是單參數的指數分布族,可以被寫為如下標准形式。

1cf9379b4fba

    更多可參考WIKIPEDIA

6. 術語解釋

independent identically distributed獨立同分布(i.i.d.)

    如果在一組隨機變量集合中,任意一隨機變量都有相同的概率分布,並且相互之間獨立,那么則稱變量集獨立同分布。

sufficient statistic充分統計量

    統計量T(X ) 對於給定參數θ 而言是充分的 是指對於X 的條件概率而言, 給定統計量T (X ), 則不依賴於參數 θ。

696516d61390

一種更容易理解的方式是(參考Steven M.Kay《統計信號處理基礎》),充分統計量是不止一個的。對於要估計的參數θ 來說,觀測到數據集合顯然是充分統計量。而充分代表着一旦給定了充分統計量,那么參數的條件概率和其他統計量無關。

1caba855bf49

    上述兩個式子是等價的。通過貝葉斯公式可以互相推導得到。

partition function配分函數

    太長了,沒看。是歸一化參數的一種特殊情況,這里簡單的理解為歸一化參數就好。

conjugate priors 共軛先驗(不知道是否應該這樣翻譯)

    在貝葉斯概率理論中,如果后驗概率分布p(θ|x )和先驗概率分布p(θ)同屬於一種概率分布族,那么后驗和先驗稱為共軛分布。同時這一先驗被稱為在此似然函數下的共軛先驗。

    貝葉斯定理有

7438889a443a

    給定似然函數(通過觀察結果,這通常來說是很好的到的),上式的積分求解的難度和先驗知識有關。在某些選擇下,后驗概率分布和先驗概率分布具有類似的代數結構。

    共軛先驗性質給出了后驗概率分布的閉式解,否則我們需要求解復雜的積分。而且,共軛先驗使得我們能夠清楚的看到似然函數對概率分布的影響。

7.待續


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM