Exponential family(指數分布族)是一個經常出現的概念,但是對其定義並不是特別的清晰,今天好好看了看WIKI上的內容,有了一個大致的了解,先和大家分享下。本文基本是WIKI上部分內容的翻譯。
1. 幾個問題
什么是指數分布族?
既然是”族“,那么族內的共同特點是什么?
為何指數分布族被廣泛應用?是指數分布族選擇了我們,還是我們選擇了指數分布族?(這個問題沒有回答,需要結合具體實例分析)
2. 參考
Exponential family. (2015, February 26). In Wikipedia, The Free Encyclopedia. Retrieved 05:00, April 3, 2015, from http://en.wikipedia.org/w/index.php?title=Exponential_family&oldid=648989632
3. 指數分布族: 定義
指數分布族指概率分布滿足以下形式的分布
其中($\theta$,$x$也可以是標量)
Exponential family ,也稱 Exponential Class,包括了很多常見的分布。譬如
normal, exponential, gamma, chi-squared, beta, Dirichlet, Bernoulli, categorical, Poisson, Wishart, Inverse Wishart.
分布函數中的T (x ) , η (θ ) 和 A(η )並不是任意定義的,每一部分都有其特殊的意義。
T (x )是分布的充分統計量(sufficient statistic )
η 是自然參數。對於有限的函數而言, η 的集合被稱為自然參數空間。
A(η )被稱為對數配分函數(partition function ),實際上它是歸一化因子的對數形式。它使得概率分布積分為1的條件得到滿足。
上式可以看出,通過對 A(η )求導,容易得到充分統計量T (x )的均值,方差和其他性質。(怎么求?)
4. 指數分布族:性質
指數分布族具有很多性質,這些性質使得指數分布族在統計分析具有重要作用。並且在很多情況下,只有指數分布族具有那些性質。其中包括
不太懂,怕弄錯,還是給原文好了。
|
具體解釋如下(沒看到的就不解釋了……):
(1) 指數函數的充分統計量的可以從大量的i.i.d.數據中歸結為估計的幾個值(即T (x )),這點在 sufficient statistics中也有說明
According to the Pitman–Koopman–Darmois theorem, among families of probability distributions whose domain does not vary with the parameter being estimated, only in exponential families is there a sufficient statistic whose dimension remains bounded as sample size increases. Less tersely, suppose This theorem shows that sufficiency (or rather, the existence of a scalar or vector-valued of bounded dimension sufficient statistic) sharply restricts the possible forms of the distribution. |
(2)指數分布族具有共軛先驗特性。可參考本文“術語解釋”。
5. 指數分布族:舉例
正態分布
這是單參數的指數分布族,可以被寫為如下標准形式。
更多可參考WIKIPEDIA。
6. 術語解釋
independent identically distributed獨立同分布(i.i.d.)
如果在一組隨機變量集合中,任意一隨機變量都有相同的概率分布,並且相互之間獨立,那么則稱變量集獨立同分布。
sufficient statistic充分統計量
統計量T(X ) 對於給定參數θ 而言是充分的 是指對於X 的條件概率而言, 給定統計量T (X ), 則不依賴於參數 θ。
一種更容易理解的方式是(參考Steven M.Kay《統計信號處理基礎》),充分統計量是不止一個的。對於要估計的參數θ 來說,觀測到數據集合顯然是充分統計量。而充分代表着一旦給定了充分統計量,那么參數的條件概率和其他統計量無關。
上述兩個式子是等價的。通過貝葉斯公式可以互相推導得到。
太長了,沒看。是歸一化參數的一種特殊情況,這里簡單的理解為歸一化參數就好。
conjugate priors 共軛先驗(不知道是否應該這樣翻譯)
在貝葉斯概率理論中,如果后驗概率分布p(θ|x )和先驗概率分布p(θ)同屬於一種概率分布族,那么后驗和先驗稱為共軛分布。同時這一先驗被稱為在此似然函數下的共軛先驗。
貝葉斯定理有
給定似然函數(通過觀察結果,這通常來說是很好的到的),上式的積分求解的難度和先驗知識有關。在某些選擇下,后驗概率分布和先驗概率分布具有類似的代數結構。
共軛先驗性質給出了后驗概率分布的閉式解,否則我們需要求解復雜的積分。而且,共軛先驗使得我們能夠清楚的看到似然函數對概率分布的影響。