原文鏈接:http://tecdat.cn/?p=14601

如何使用蒙特卡洛模擬來推導隨機變量可能的分布,我們回到統計數據(無協變量)進行說明。我們假設觀察值是基礎隨機變量,具有未知分布的隨機變量。
這里有兩種策略。在經典統計中,我們使用概率定理來推導隨機變量的屬性在可能的情況下的分布。另一種方法是進行計算統計。
對於評估擬合度,測試正態性不是很有用。在本文中,我想說明這一點。我們使用男生的身高數據,
X=Davis$height[Davis$sex=="M"]
我們可以可視化其分布(密度和累積分布)
-
u=seq(155,205,by=.5)
-
par(mfrow=c(1,2))
-
hist(X,col=rgb(0,0,1,.3))
-
lines(density(X),col="blue",lwd=2)
-
lines(u,dnorm(u,178,6.5),col="black")
-
Xs=sort(X)
-
n=length(X)
-
p=(1:n)/(n+1)
-
plot(Xs,p,type="s",col="blue")
-
lines(u,pnorm(u,178,6.5),col="black")

它看起來像正態分布,因此我們可以在左側添加密度高斯分布,在右側添加cdf。我不想測試它是否是高斯分布。為了查看此分布是否相關,可以使用蒙特卡洛模擬法

我們可以在左側看到很難通過密度(直方圖以及核密度密度估計器)評估正態性 。人們很難想到兩個密度之間的有效距離。但是,如果我們看一下右邊的圖,我們可以比較經驗分布累積分布。如上所述,我們可以按照Cramer-von Mises 檢驗或 Kolmogorov-Smirnov 距離的建議計算黃色區域 。

如果我們抽取10,000個反事實樣本,則可以使用測試統計量等的方法來可視化距離的分布(此處為密度),並將其與樣本的觀察值進行比較。測試統計量超過觀察值的樣本比例
-
mean(dks)
-
[1] 0.78248
計算版本的值
-
ks.test(X,"pnorm",178,6.5)
-
-
One-sample Kolmogorov-Smirnov test
-
-
data: X
-
D = 0.068182, p-value = 0.8079
-
alternative hypothesis: two-sided
在統計數據中,要么操作抽象對象(如隨機變量),要么實際上使用一些代碼生成假樣本以量化不確定性。后者很有趣,因為它有助於可視化復雜的量化。
參考文獻
