R語言代寫Copula的貝葉斯非參數估計


原文:http://tecdat.cn/?p=4190

 

Copula可以完全表征多個變量的依賴性。本文的目的是提供一種貝葉斯非參數方法來估計一個copula,我們通過混合一類參數copula來做到這一點。特別地,我們表明任何雙變量copula密度可以通過高斯copula密度函數的無限混合任意精確地近似。該模型可以通過馬爾可夫鏈蒙特卡羅方法估計,並且該模型在模擬和實際數據集上進行演示。

關鍵詞:貝葉斯非參數估計, Copula , 高斯Copula , Gibbs采樣, 切片采樣

1.簡介

最近,Copulas作為一種用於計算多變量數據的依賴結構的建模工具而變得流行。

本文的目的是提出一種估計Copula密度函數的貝葉斯非參數方法,審查了copula估算器的參數,半參數和非參數方法。

重點通常放在從某些參數族中選擇的copula上。然后通過最大似然估計來執行估計; 偽似然估計。用於估計Copula的半參數和參數方法的比較。 ; 或者通過矩量法或貝葉斯方法,邊際分布和模型選擇:貝葉斯注記。貝葉斯copula選擇。計算統計數據分析。然而,在所有方法中,仍然需要檢查依賴結構是否適合於數據,即模型充分性。使用非參數方法獲得更靈活的方法,這些方法試圖避免特定copula族的假設。

設(X1,Y1),...,(Xn,Yn)是來自未知分布H的隨機樣本,並且由Fn和Gn表示與F和G樣本相關的經驗分布函數, 分別。然后Hn(x,y)被認為是經驗分布函數,由下式給出

並讓相應的經驗邊際分布函數成為

然后可以獲得經驗copula函數

這是一個基於秩的copula函數估計。標准化等級(F n(X i),G n(Y i))替換不可觀察對(F(X i),G(Y i)),然后形成隨機樣本(U 1,V 1),...... ,(û ñ,V ñ)從連接函數ç。

還建立了隨機向量iid觀測的經驗copula過程的一致性和漸近正態性。然而,經驗copula函數不是連續的,並且需要一些平滑技術來獲得使用內核,小波或樣條的實際估計器。

2. Copulas和非參數模型

3.吉布斯采樣算法

第 1 步:更新w。給定d i,i = 1,...,n的參數的條件分布w j與 ... 成比例其中#{ d 我 = Ĵ }寄存器的數量d 我,它等於Ĵ和#{ d 我 > Ĵ }寄存器{的數量d 我 > Ĵ }。

第 2 步:更新z。所述ž 我遵循具有支持均勻分布

第 3 步:更新d i。d i的值可以位於0和N i之間,其從z i的值導出。我們的密度與d i成正比

第 4 步:更新 ρ。參數ρ的充分條件分布Ĵ給出如下:

其中π(ρ Ĵ)為ρ先驗分布Ĵ,我們假定它在與支撐的均勻分布(-1,1)。詳細的抽樣程序將在稍后討論。一旦我們可以從中采樣,鏈條完成。

能夠從中采樣,我們介紹切片采樣的想法。將u =Φ(x)和v =Φ(y)代入等式(5),我們可以得到(X,Y),c的依賴結構,其中,Copula密度為

-1 <ρ<1。

然后,完全可能性可以表示為

,ρ的后驗分布,給定先前的π(ρ),與之成正比

我們以這樣的方式引入兩個潛在變量λ和η,即后驗分布可以表示為

很容易看出整合了潛在變量λ和η,我們將得到ρ的后驗分布。現在我們可以使用Gibbs采樣器。我們通過模擬ρ~U(-1,1)開始初始化。然后我們使用以下步驟進行更新:

在下一節中,我們在一些模擬和真實數據集上運行此代碼。

4.數值結果

為了檢驗所提出的模型的數值性能,我們首先提出兩個模擬數據示例。第一個例子有兩組,它們是由具有強正相關性的高斯copula生成的,第二個例子來自學生t copula。

對於這些示例中的每一個,我們使用Matlab 生成(U,V)數據集,此處考慮的樣本大小為n= 500。將從Gibbs采樣器輸出(U ',V ')獲得的預測數據與生成的數據進行比較。這是基於Gibbs采樣器的4000次迭代,並且使用最后的500對,然后使用前3500次迭代的老化時段。通過經典核方法和直方圖獲得數據和預測樣本的雙變量copula密度函數估計。

第一個模擬數據模型具有極強的正相關性。選擇等式(4)中的高斯copula ,其相關系數為ρ= 0.99。圖1中提供了該組數據的四個圖形表示。在頂行中,面板(a)和(b)分別顯示基於散射和基於內核的copula密度圖的生成數據(U,V)。預測樣品的那些顯示在圖(c)和(d)中。

圖1.高斯copula,ρ= 0.99,樣本大小n = 500。圖(a):數據的散點圖; 圖(b):基於內核的copula數據密度; 圖(c),(d)和(e):分別為預測樣品的散射,基於核的copula密度和直方圖; 圖(f):k的直方圖,混合高斯copula密度中的組數。

在這個無限模型中,一個重要的總結是群體或混合物的數量。我們關注有限數量的變量來采樣具有正確平穩分布的有效馬爾可夫鏈。每個迭代中的簇數

k在面板(f)中示出。k的平均值為1,這意味着copula密度被認為是一個高斯copula密度。該方法表明,如預期的那樣,估計這種類型的copula是非常簡單的。

第二個模擬數據模型是學生t copula。圖2的面板(a)中的散點圖顯示了從該copula生成的數據。選擇相關系數ρ= -0.5,自由度為ν= 1; 具有低自由度的學生t copula產生更大的上下尾部依賴性(見圖2)。預測樣品列於圖(c)和(d)中。可以看出,預測估計值對真實的copula密度進行了顯着的近似。簇(k)的數量如圖(e)所示。

圖2.學生t copula密度,ρ= -0.5,自由度ν= 1,數字n = 500。圖(a):數據的散點圖; 圖(b):數據的直方圖; 圖(c)和(d):分別為預測樣本的散點圖和直方圖; 圖(e):k的直方圖,混合高斯copula密度中的組數。

最后一個例子使用了一個真實的數據集;

使用MPLE-TV方法分析的類似數據。這里478名受試者提供收縮壓(SBP)和舒張壓(DBP)血壓(mmHg)的測量值。我們通過無限混合模型關注copula估計。在模擬中,讓X為SBP和Y.是DBP,所以邊緣F(x)和G(y)是未知的。然后我們按照Genest等人的說法。

並考慮觀察

這里它表明兩種反應之間存在正相關關系,但不是非常強烈。

圖3.面板(a):log(SBP)和log(DBP)的散點圖; 圖(b):(log(SBP))/ n和(log(DBP))/ n的等級圖。

此處使用的蒙特卡羅樣本大小為10,000,初始9000用作老化期(參見圖4)。圖(c) - (e)中預測樣本的圖廣泛地表征了真實數據的依賴結構。它們使用高斯混合結構在真實數據和我們的預測樣本之間顯示出強烈的一致性。

圖4. SBP和DBP的依賴結構,以及由經驗分布函數轉換的468對數據。圖(a)和(b):分別為數據的散射和基於核的copula密度圖; 圖(c) - (e):分別為預測樣本的散射,基於核的copula密度和直方圖; 圖(f):k的直方圖,混合高斯copula密度中的組數。

在每個迭代中無限模型中的混合物數量k在面板(f)中示出。k的平均值為7.7,這意味着copula密度大致被認為是八個高斯copula密度的混合。這種形狀的copula與任何已知的家族模型如Gumbel copula都不相似。

 

如果您有任何疑問,請在下面發表評論。 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM