拓端tecdat|R語言BUGS/JAGS貝葉斯分析: 馬爾科夫鏈蒙特卡洛方法（MCMC）采樣

本文轉載自查看原文 2020-11-19 20:41 444 JAGS/ WinBUGS/ 朴素貝葉斯/ 蒙特卡洛/ R語言/ MCMC/ 馬爾科夫

原文鏈接：http://tecdat.cn/?p=17884

馬爾科夫鏈蒙特卡洛方法

在許多情況下，我們沒有足夠的計算能力評估空間中所有n維像素的后驗概率。在這些情況下，我們傾向於利用稱為Markov-Chain Monte Carlo 算法的程序。此方法使用參數空間中的隨機跳躍來（最終）確定后驗分布。MCMC的關鍵如下：

跳躍概率的比例與后驗概率的比例成正比。

跳躍概率可以表征為：

概率（跳躍）*概率（接受）

從長遠來看，該鏈將花費大量時間在參數空間的高概率部分，從而實質上捕獲了后驗分布。有了足夠的跳躍，長期分布將與聯合后驗概率分布匹配。

MCMC本質上是一種特殊類型的隨機數生成器，旨在從難以描述（例如，多元，分層）的概率分布中采樣。在許多/大多數情況下，后驗分布是很難描述的概率分布。

MCMC使您可以從實際上不可能完全定義的概率分布中進行采樣！

令人驚訝的是，MCMC的核心並不難於描述或實施。讓我們看一個簡單的MCMC算法。

Metropolis-Hastings算法

該算法與模擬退火算法非常相似。

MH算法可以表示為：

Prob（acceptB | A）= min（1，Posterior（B）Posterior（A）⋅Prob（b→a）Prob（a→b））

請注意，從本質上講，這與“ Metropolis”模擬退火算法相同，后驗概率代替了概率，並且 k 參數設置為1。

二元正態例子

請記住，MCMC采樣器只是隨機數生成器的一種。我們可以使用Metropolis-Hastings采樣器來開發自己的隨機數生成器，生成進行簡單的已知分布。在此示例中，我們使用MH采樣器從標准雙變量正態概率分布生成隨機數。

對於這個簡單的示例，我們不需要MCMC采樣器。一種實現方法是使用以下代碼，該代碼從具有相關參數ρ的雙變量標准正態分布中繪制並可視化任意數量的獨立樣本。

#################
＃MCMC采樣的簡單示例
#################
#########
# ＃首先，讓我們構建一個從雙變量標准正態分布生成隨機數的函數
rbvn<-function (n, rho) #用於從二元標准正態分布中提取任意數量的獨立樣本。
{
x <- rnorm(n, 0, 1)
y <- rnorm(n, rho * x, sqrt(1 - rho^2))
cbind(x, y)
}
#########
# 現在，從該分布圖中繪制隨機抽樣
bvn<-rbvn(10000,0.98)
par(mfrow=c(3,2))
plot(bvn,col=1:10000

###############
# ＃Metropolis-Hastings雙變量正態采樣器的實現...
library(mvtnorm) # 加載一個包，該包使我們能夠計算mv正態分布的概率密度
metropoli<- function (n, rho=0.98){ # 雙變量隨機數生成器的MCMC采樣器實現
mat <- matrix(ncol = 2, nrow = n) # 用於存儲隨機樣本的矩陣
x <- 0 # 所有參數的初始值
prev <- dmvnorm(c(x,y),mean=c(0,0),sig
# 起始位置分布的概率密度
mat[1, ] <- c(x, y) # 初始化馬爾可夫鏈
newx <- rnorm(1,x,0.5) # 進行跳轉
newprob <- dmvnorm(c(newx,newy),sigma =
# 評估跳轉
ratio <- newprob/prev # 計算舊位置（跳出）和建議位置（跳到）的概率之比。
prob.accept <- min(1,ratio) # 決定接受新跳躍的概率！
if(rand<=prob.accept){
x=newx;y=newy # 將x和y設置為新位置
mat[counter,] <- c(x,y) # 將其存儲在存儲陣列中
prev <- newprob # 准備下一次迭代

然后，我們可以使用MH采樣器從該已知分布中獲取隨機樣本…

###########
# 測試新的M-H采樣器
bvn<-metropoli(10000,0.98)
par(mfrow=c(3,2))
plot(bvn,col=1:10000)
plot(bvn,type=

讓我們嘗試解決一個問題。

MCMC對粘液瘤病進行調查

############
#黏液病示例的MCMC實現
############

subset(MyxDat,grade==1

## grade day titer
## 1 1 2 5.207
## 2 1 2 5.734
## 3 1 2 6.613
## 4 1 3 5.997
## 5 1 3 6.612
## 6 1 3 6.810

選擇使用Gamma分布。這是經驗分布：

###########
# 第100次可視化粘液病數據
hist(Myx$titer,freq=FALSE)

我們需要估算最適合此經驗分布的伽馬速率和形狀參數。這是適合此分布的Gamma的一個示例：

#########
# ...覆蓋生成模型的數據（伽瑪分布）
curve(dgamma(x,shape=40,scale=0.15),add=T,col="red")

二維（對數）似然面：

##############
# 定義二維參數空間
##############
shapevec <- seq(3,100,by=0.1)
scalevec <- seq(0.01,0.5,by=0.001)
##############
# ＃定義參數空間內此網格上的似然面
##############
GammaLogLikelihoodFunction <- function(par
}
surface2D <- matrix(nrow=length(shapevec),ncol=length(scalevec)) #初始化存儲變量
newparams <- c(sha
surface2D[i,j] <- GammaLogLikelihoodFunction(newparams)
############
# 可視化似然面
############
contour(x=shapevec,y=scalevec,z=surface2D,levels=c(-30,-40,-80,-500),add=T)

這是MH算法的實現，用於找到后驗分布！

首先，我們需要一個似然函數–這次，我們將返回真實概率–而不是對數轉換的概率

############
#編寫非對數轉換的似然函數
GammaLike- function(params){
prod(dgamma(Myx$titer,shape=params['shape']
params <- c(shape=40,

## shape scale
## 40.00 0.15

GammaLike(params)

## [1] 2.906766e-22

GammaLogLike(params)

## [1] -49.58983

然后，我們需要預先分配參數！在這種情況下，我們分配gamma（shape = 0.01，scale = 100）和gamma（shape = 0.1，scale = 10）的分布（均值為1且方差略低）：

#############
# 函數返回參數空間中任意點的先驗概率密度
GammaPriorFunction <- function(params){
prior <- c(shape=NA,scale=NA)
],3,100)
# prior['scale'] <- dunif(params['
GammaLogPriorFunction <- function(params){
prior <- c(shape=NA,scale=NA)
'],shape=0.001,scale=1000,log=T)
# prior['shape'] <- dunif(params['shape'],3,100)
# prior['scale'] <- dunif(params['
curve(dgamma(x,shape=0.01,scale=1000),3,100)

params

## shape scale
## 40.00 0.15

GammaPrior(params)

## [1] 1.104038e-06

prior2D <- matrix(nrow=length(shapevec),ncol=length(scalevec)) # 初始化存儲變量
newparams <- c(shape=50,scale=0
for(j in 1:length(scalevec)){
newparams['scale'] <- sca
############
# 可視化似然面
############
image(x=shapevec,y=scalevec,z=prior2D,zlim

contour(x=shapevec,y=scalevec,z=prior2D,levels=c(-30,-40,-80,-500),add=T)

我們假設形狀和比例在先驗中是獨立的（聯合先驗的乘法概率）。然而，並沒有對后驗參數相關性提出相同的假設，因為概率可以反映在后驗分布中。

然后，我們需要一個函數，該函數可以計算參數空間中任何給定跳轉的后驗概率比率。因為我們正在處理后驗概率的比率，所以 我們不需要計算歸一化常數。

無需歸一化常數，我們只需要計算加權似然比（即先驗加權的似然比）

############
# 函數用於計算參數空間中任意兩點之間的后驗密度比
PosteriorRatio <- function(oldguess,newguess
oldLik <- max(1e-90,GammaLikelihoodFunction(oldguess)) # 計算舊猜測的可能性和先驗密度
newLik <- GammaLikelihoodFunction(newguess) # 在新的猜測值下計算可能性和先驗密度
return((newLik*newPrior)/(oldLik*oldPrior)) # 計算加權似然比
}
PosteriorRatio2 <- function(oldguess,newguess){
oldLogLik <- GammaLogLikelihoodFunction(oldguess) # 計算舊猜測的可能性和先驗密度
newLogLik <- GammaLogLikelihoodFunction(newguess) # 在新的猜測值下計算可能性和先驗密度
return(exp((newLogLik+newLogPrior)-(oldLogLik+oldLogPrior))) # 計算加權似然比
}

## [1] 0.01436301

PosteriorRatio2(oldguess,newguess)

## [1] 0.01436301

然后，我們需要一個函數進行新的推測或在參數空間中跳轉：

############
# 為參數空間中的跳轉定義：使用正態分布函數進行新的推測
newGuess <- function(oldguess)
jump <- c(shape=rnorm(1,mean=0,sd=sdshapejump),scale=rnorm(1,0,sdscalejump))
newguess <- abs(oldguess + ju
}
# 在原始推測附近設置新的推測
newGuess(oldguess=params)

## shape scale
## 35.7132110 0.1576337

newGuess(oldguess=params)

## shape scale
## 45.1202345 0.2094243

newGuess(oldguess=params)

## shape scale
## 42.87840436 0.08152061

現在，我們准備實現Metropolis-Hastings MCMC算法：

我們需要一個初始點：

##########
# 在參數spacer中設置起點
startingvals <- c(shape=75,scale=0.28) # 算法的起點

測試函數

###########
# 嘗試我們的新函數
newguess <- newGuess(startingvals) # 在參數空間中跳躍
newguess

## shape scale
## 73.9663949 0.3149796

PosteriorRatio2(startingvals,newguess)   # 后驗比例差異

## [1] 2.922783e-57

現在讓我們看一下Metropolis-Hastings：

###############
#可視化Metropolis-Hastings
chain.length <- 11
gth,ncol=2)
colnames(guesses) <- names(startingvals)
guesses[1,] <- startingvals
counter <- 2
post.rat <- PosteriorRatio2(oldguess,newguess)
prob.accept <- min(1,post
oldguess <- newguess
guesses[coun
#可視化
contour(x=shapevec,y=scal

我們運行更長的時間

##########
# 獲取更多MCMC示例
chain.length <- 100
oldgu
counter <- 2
while(counter <= chain.length){
newguess <- newGuess(oldguess)
post.rat <- Posterio
rand <- runif(1)
if(rand<=prob.accept){
ewguess
counter=counte
#可視化
image(x=shapevec,y=scalevec,z=su
urface2D,levels=c(-30,-40,-80,-5
lines(guesses,col="red")

更長的時間

############
#更長的時間
chain.length <- 1000
oldguess <- startingvals
chain.length,ncol=2)
colnames(guesses) <- names(startingvals)
guesses[1,] <- startingva
ess)
post.rat <- PosteriorRatio2(oldguess,newguess)
prob.accept <- min(1,post.rat)
rand <- runif(1)
guesse
#可視化
image(x=shapevec,y=scalevec,
rface2D,levels=c(-30,-40,-80,-500),a

看起來更好！搜索算法可以很好地找到參數空間的高似然部分！

現在，讓我們看一下“ shape”參數的鏈

#############
# 評估MCMC樣本的“軌跡圖” ...
##### Shape 參數
plot(1:chain.length,guesses[,'sha

對於比例參數

###### 比例參數
plot(1:chain.length,guesses[,'scale'],type="l

我們可以說這些鏈已經收斂於形狀參數的后驗分布嗎？

首先，鏈的起點“記住”起始值，因此不是固定分布。我們需要刪除鏈的第一部分。

############
# 刪除預燒期（允許MCMC有一段時間達到后驗概率）
burn.in <- 100
MCMCsamples <- guesses[-c(1:burn.in),]

但這看起來還不是很好。讓我們運行更長的時間，看看是否得到的東西看起來更像是隨機數生成器（白噪聲）

##########
# 再試一次-運行更長的時間
chain.length <- 20000
oldguess <- startingv
o2(oldguess,newguess)
prob.accept <- mi

讓我們首先刪除前5000個樣本作為預燒期

#############
# 使用更長的“預燒”
burn.in <- 5000
MCMCsamples <- guesses[-c(1:bur

現在，讓我們再次看一下鏈條

在評估這些跡線圖時，我們希望看到看起來像白噪聲的“平穩分布”。該軌跡圖看起來可能具有一些自相關。解決此問題的一種方法是稀疏MCMC樣本：

##########
# “稀疏” MCMC樣本
thinnedMCMC <- MCMCsamples[seq(1,chain.length,by=5),]

現在我們可以檢查我們的后驗分布！

# 可視化后驗分布
plot(density(thinnedMCMC[,'scale'])

我們可以像以前一樣可視化。

#########
# 更多后驗概率檢察
par(mfrow=c(3,2))
plot(thinnedMCMC,col=1:10000)
plot(thinnedMCMC,type="l")

可以修改Metropolis-Hastings MCMC方法來擬合任意模型的任意數量的自由參數。但是，MH算法本身不一定是最有效和靈活的。在實驗中，我們使用吉布斯采樣，大多采用建模語言 BUGS 。

注意：BUGS實現（例如JAGS）實際上傾向於結合使用MH和Gibbs采樣，MH和Gibbs采樣器並不是唯一的MCMC例程。例如，“ stan”使用MH采樣的一種改進形式，稱為“ Hamiltonian Monte Carlo”。

吉布斯Gibbs采樣器

Gibbs采樣器非常簡單有效。基本上，該算法從完整的條件 概率分布（即，在模型中所有其他參數的已知值作為條件的條件下，對任意參數i的后驗分布）中進行連續采樣。

在很多情況下，我們不能直接制定出我們的模型后驗分布，但我們可以分析出條件后驗分布。盡管如此，即使它在分析上不易處理，我們也可以使用單變量MH程序作為最后方法。

問：為什么Gibbs采樣器通常比純MH采樣器效率更高？

二元正態例子

MCMC采樣器只是隨機數生成器的一種。我們可以使用Gibbs采樣器來開發自己的隨機數生成器，以實現相當簡單的已知分布。在此示例中，我們使用Gibbs采樣器從標准雙變量正態概率分布生成隨機數。注意，吉布斯采樣器在許多方面都比MH算法更簡單明了。

#############
#Gibbs采樣器的簡單示例
#############
########
# 首先，回顧一下我們簡單的雙變量正態采樣器
rbvn<-function (n, rho){ #f函數用於從雙變量標准正態分布中提取任意數量的獨立樣本。
x <- rnorm(n, 0, 1)
y <- rnorm(n, rho * x, sqrt(1 - rho^2))

#############
# 現在構造一個吉布斯采樣器
gibbs<-function (n, rho){ # 雙變量隨機數生成器的gibbs采樣器實現
mat <- matrix(ncol = 2, nrow = n) # 用於存儲隨機樣本的矩陣
mat[1, ] <- c(x, y) # initialize the markov chain
for (i in 2:n) {
x <- rnorm(1, rho * y, sqrt(1 - rho^2)) # 以y為條件的x中的樣本
y <- rnorm(1, rho * x, sqrt(1 - rho^2)) # 以x為條件的y中的樣本
mat[i, ] <- c(x, y)

然后，我們可以使用Gibbs采樣器從該已知分布中獲取隨機樣本…

##########
# 測試吉布斯采樣器
plot(ts(bvn[,2]))
hist(bvn[,1],40)
hist(bvn[,2],40)

在這里，馬爾可夫鏈的樣本中有很多明顯的自相關。Gibbs采樣器經常有此問題。

示例

BUGS語言

最后，讓我們為我們最喜歡的粘瘤病示例創建一個Gibbs采樣器，為此，我們將使用BUGS語言（在JAGS中實現）來幫助我們！

JAGS，全稱是Just another Gibbs sampler，是基於BUGS語言開發的利用MCMC來進行貝葉斯建模的軟件包。它沒有提供建模所用的GUI以及MCMC抽樣的后處理，這些要在其它的程序軟件上來處理，比如說利用R包（rjags）來調用JAGS並后處理MCMC的輸出。JAGS相對於WinBUGS/OpenBUGS的主要優點在於平台的獨立性，可以應用於各種操作系統，而WinBUGS/OpenBUGS只能應用於windows系統；JAGS也可以在64-bit平台上以64-bit應用來進行編譯。

BUGS語言看起來與R類似，但是有幾個主要區別：