機器學習----分布問題(二元,多元變量分布,Beta,Dir)


      這涉及到數學的概率問題。

      二元變量分布:

         伯努利分布,就是0-1分布(比如一次拋硬幣,正面朝上概率)

         那么一次拋硬幣的概率分布如下:

       

       假設訓練數據如下:

          

      那么根據最大似然估計(MLE),我們要求u:

            

     求值推導過程如下:

     

    所以可以求出:

               

    以上的推導過程就是極大似然估計,我們可以看出u就是樣本出現的頻率除以總共拋硬幣的實驗次數。但是極大似然估計有它的局限性,當訓練樣本比較小的時候會導致Overfitting問題,比如說拋了10次硬幣,有8次朝上,那么根據極大似然估計,u的

取值就應該是8/10(這符號頻率派的觀點)。如何解決這個問題呢?

   那么這時候就需要從貝葉斯理論出發,貝葉斯理論認為,u並不是一個固定的值,u是同樣服從某個分布,因此我們假設u有個先驗分布P(u)。

   但是如何選取這個先驗分布p(u)呢?

   我們知道

   

   因此我們希望先驗分布也可以有類似的概率分布,為什么這么說呢?因為后驗概率=先驗概率*似然函數,所以如果選擇的先驗分布和似然函數有一樣的結構,那么得到的后驗概率也會存在相似的結構,這樣會使得我們后面的計算簡便。

   共軛性:θ的后驗分布p(θ|x)與先驗分布P(θ)屬於同一分布,那么稱二者為共軛分布。

   因此我們假設u的先驗分布也為

        

   那么這時候數學里面有個分布叫做Beta分布:

     

   那么假設我們投硬幣,m次正面,l次反面。總共是m+l=N次實驗:

   那么這時候u的分布為:

  

         依舊和先驗分布服從一樣的分布(共軛分布)

     假設我們要預測下一次的實驗結果,也就是給定D得到下一次的預測分布:

   

       我們可以發現當m,N無限變大的時候,這種估計近似等於極大似然估計。

      多元變量分布:

      很多時候,變元的不止只有兩個,還有多元,其實估計過程是類似的。  假設有k維向量,其中某個向量Xk=1,其他等於0。

     例如某個變量x2發生,則X2=1,x=(0,1,0,0,0,0)  以拋篩子為例子,總共有6個面。

     那么xk=1發生的概率為Uk,那么x的分布為:

    

    考慮n個獨立觀測值{x1,x2,...xn}D,對應的似然函數:

    

   其中mk其實就是這么多次實驗中,uk出現的次數大小。估計極大似然估計,我們會得出:

    

  同理,為了避免數據量小導致的過擬合問題,我們對Uk也假設一個先驗分布:

  考慮到對於多元變量的分布u:

   

  因此我們選擇它的共軛分布狄利克雷分布為先驗分布:

        

 那么后驗分布=似然分布*先驗分布:

  

      依舊和先驗分布服從一樣的分布(共軛分布)

     假設我們要預測下一次的實驗結果,也就是給定D得到下一次的預測分布:

    

   又因為對於狄利克雷分布:

    

   所以對於某個類的分布預測為:   

 

 

         

      


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM