Beta分布


 用例子理解Bbta分布(一)

    Beta分布可以看做是分布之上的分布。我們以拋硬幣為例,不過,我們並不假設硬幣是均勻的(也就是說:並不假設每次拋硬幣,正面朝上的概率為0.5),所以拋硬幣的正面朝上的概率p是未知的(只知道p∈[0,1])。如果進行一次二項分布試驗,在這次二項分布試驗中,拋硬幣10000次,其中正面朝上7000次,反面朝上3000次,我們可以得到,正負面朝上的概率分別為{p,1-p}={0.7,0.3}。但是我們並不確信這個結果是正確的。我們想要做10000次二項分布試驗,在每次二項分布試驗中,均拋硬幣10000次(說不定在其他二項分布實驗中,得到的正負面朝上的概率是{0.2,0.8}或者{0.6,0.4},這些情況都有可能),那么,我們想要知道,在這樣的多次重復二項分布實驗中,拋硬幣最后得到正負面朝上概率為{0.7,0.3}這樣概率為多少?這就是在求拋硬幣的概率分布之上的分布。這樣的分布就叫做Beta分布。正如二項分布可以看做多次進行伯努利試驗所得到的分布一樣,Beta分布也可以看做是多次進行二項分布的試驗所得到的分布,是分布之上的分布。

 

用例子理解Bbta分布(二)

    有一枚硬幣(不知道它是否公平),假如拋了三次,三次都是“花”,能夠說明它兩面都是“花”嗎?

    1. 貝葉斯推斷

    按照傳統的算法,拋了三次得到三次“花”,那么“花”的概率應該是:P = 3/3 = 100%。但是拋三次實在太少了,完全有可能是運氣問題。我們應該怎么辦?

    貝葉斯認為在實驗之前,應根據不同的情況對硬幣有所假設。不同的假設會得到不同的推斷。

    比如和滑不溜手的韋小寶玩。韋小寶可能拿出各種做過手腳的硬幣,讓我們猜不透,只能假設對硬幣一無所知。這種假設之下,我們就只能根據實驗結果來猜測。因此,實驗結果是“扔三次,三次花”,傾向於認為韋小寶有可能作弊:

    大俠陳近南用的可能是公平硬幣:

    而憨壞的多隆,真的有可能用兩面“花”來和你玩:

 

    各種假設稱為先驗分布,結合剛才“扔三次,三次花”的實驗數據,推斷出硬幣的后驗分布,這就是貝葉斯推斷:

                                        

    2.Beta分布 

    那么問題來了,“先驗分布”,“后驗分布”用數學怎么表示?對於扔硬幣,Beta分布非常適合用來完成這個任務。

    2.1 先驗分布

    Beta分布簡記為:Beta(a,b),根據a,b參數的不同,形態各異:

    在韋小寶面前,我們對硬幣一無所知。貝葉斯說,一無所知也就是意味着任何概率都是一樣的,都是有可能的,所以選用均勻分布。Beta(1,1)正好就是均勻分布:

 

    正直的陳近南,可能用的是公平硬幣,也就是說概率在0、1之間(0表示“字”,1表示“花”),Beta(5,5,)可以表示這樣的分布:

 

    而憨壞的多隆,可能用了兩面花,也就是說概率可能集中到1附近,Beta(5,1)可以表示這樣的分布:

    也就是說可以用Beat 分布來模擬各種先驗分布:

        一無所知:Beta(1,1)

        公平硬幣:Beta(5,5)

        兩面花:Beta(5,1)

    2.2 后驗分布

    用Beta分布來模擬扔硬幣的先驗分布之后,通過貝葉斯推斷,得到的后驗分布依然是Beta分布:

                                           

     具體到這個例子:

                                    

     再具體到韋小寶的情況就是:

                                      

     圖像上的變化就是:

    可以看到,作弊的可能性還是比較大的。

    陳近南的情況:

 

      結合試驗數據之后,圖像的中心從0.5往0.6方向移動了,作弊可能性有所增加,不過總體來看應該還是公平硬幣的可能性大。

     多隆的情況:

 

     更向1集中,作弊的可能性非常高。

    3 代數細節

    3.1 貝葉斯推斷

    貝葉斯推斷:

                               

    的應用到二項式分布的數學細節如下。假設實驗數據X|p 服從二項分布:

                                                                                       

     上面的式子根據貝葉斯定理可以表示為:

                                                                   

 

    其中k 為“花”的次數。分母與實驗數據無關,可以視作常數:

    因此,寫成下面這樣更容易看清楚重點(其中\propto 表示兩者之間成比例):

                                                                      

    3.2 Beta分布

     

       

    3.3 共軛先驗

    對於二項式分布,用Beta 分布作為先驗分布,通過貝葉斯推斷之后,后驗分布依然是Beta分布:

       

這種特性稱為共軛先驗

 

 

 

參考資料:

伯努利分布、二項分布、Beta分布、多項分布和Dirichlet分布與他們之間的關系,以及在LDA中的應用【存疑】

如何通俗理解 beta 分布?

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM