非參數貝葉斯模型概述


看這個模型很久了,可能一直深入的不夠,現把自己的一點愚見不斷的貼上來,一起交流,共同進步。

   貝葉斯非參數模型是一種定義在無限維參數空間上的貝葉斯模型。其大概的意思是說非參數模型的大小可以隨着模型內數據的增大或減小而自適應模型的變化,可以根據數據的多少選擇參數來確定模型(這一定義的直觀解釋參考PRML figure 2.5)。正如天下沒有免費的午餐一樣,非參數模型也需要假設參數的,跟以往參數模型不同之處在於這個非參數模型只需要一個很小的假設就能夠學習數據並進行聚類,不斷增加的數據也能夠不斷的被聚集到相應的類中;同時,這個模型的還具備預測的功能,根據具體的學習問題可以選擇能與這個問題的相關的所有的參數構成的空間數據模型進行解決。比如,在回歸問題中,參數空間能夠由所有的連續函數構成;又如在密度函數估計中參數空間可由所有的密度函數構成。簡言之,就是只要你能找到的,能對解決目標問題有幫助的參數信息,所有的信息都可以一起用來組建模型。既然參數都能被用上,是不是在無限的增加模型的復雜度呢?其實,非參數模型可利用的參數維數中的有限的子數組來解釋有限的樣本觀察量,維數的選擇取決於樣本的分布情況,這樣模型(樣本分布決定其維數)的復雜度就可以自適應於數據。

    非參數的分析及模型選擇,主要要歸結到貝葉斯推斷問題中(INFERENCE).當前較為流行的貝葉斯非參數模型包括高斯回歸過程,這個是結構的變化隨着樣本的變化而不斷發生變化。還有一個用的較多的狄里克雷混合過程用於解決clustering,它將新來的數據不斷的分到相應的clustering中去。機器學習的一些典型問題,如回歸Regression,分類classification(supervised),分簇clustering(unsupervised),潛在語義模型latent variable modeling,序列模型sequential modeling,圖像分割image segmentation,source separation and grammar induction等等,這些問題決都可引入貝葉斯非參數模型,所以這個模型可以談的上是一個應用較廣的模型。

非參數模型下的聚類問題.可以根據概率模型和先驗信息,找出似然函數,再得到隱含參數的后驗分布。非參數模型中的層次化的狄利克雷模型(Hierarchical Dirichlet Process,HDP)主要采用中餐館示例形象的與之對應,中餐館應用於聚類的兩種不同闡述如下:

A.中餐館(CRP)聚類過程形象的引入Dirichlet  process進行Gibbs抽樣進行描述;

b.CRP可以認做是DP mixture model 下 先驗分布對數據聚類產生的影響,即利用已經在餐桌上人對菜的偏好,對新進入中餐館的客人進行指引,分配在相應的餐桌上。

這兩種說法 b是公認的中餐館描述,對於說法a,大家是一種啥看法呢?

另外,推薦大家參考 MIT 畢業的大牛Erik Sudderth  的博士論文 ,博士論文的前面章節很系統的講述的概率圖模型的原理,后幾章是圖模型在機器視覺里的具體應用,其主頁  http://cs.brown.edu/~sudderth/   .


參考文獻:

http://blog.csdn.net/workerwu/article/details/8131009



免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM