拓端tecdat|R語言使用bootstrap和增量法計算廣義線性模型(GLM)預測置信區間


原文鏈接:http://tecdat.cn/?p=15062


 

 

考慮簡單的泊松回歸poiss01.gif。給定的樣本poiss02.gif,其中poiss03.gifhttp://freakonometrics.hypotheses.org/files/2016/11/poiss03.gif,目標是導出用於一個95%的置信區間poiss04.gif給出poiss05.gif,其中poiss04.gif是預測。

 

因此,我們要導出預測的置信區間,而不是觀測值,即下圖的點

  1.  
    > r=glm(dist~speed,data=cars,family=poisson)
  2.  
    > P=predict(r,type="response",
  3.  
    + newdata=data.frame(speed=seq(-1,35,by=.2)))
  4.  
    > plot(cars,xlim=c(0,31),ylim=c(0,170))
  5.  
    > abline(v=30,lty=2)
  6.  
    > lines(seq(-1,35,by=.2),P,lwd=2,col="red")
  7.  
    > P0=predict(r,type="response",se.fit=TRUE,
  8.  
    + newdata=data.frame(speed=30))
  9.  
    > points(30,P1$fit,pch=4,lwd=3)

 

 

最大似然估計http://freakonometrics.hypotheses.org/files/2016/11/poiss07.gif



,Fisher信息來自標准最大似然理論。



這些值的計算基於以下計算
http://freakonometrics.blog.fre <br /> <br /> e.fr/public/latex/poiss21.gif
在對數泊松回歸的情況下,



讓我們回到最初的問題。

  • 線性組合的置信區間

獲得置信區間的第一個想法是獲得置信區間http://freakonometrics.hypotheses.org/files/2016/11/poiss100.gif(通過取邊界的指數值)。漸近地,我們知道

因此,方差矩陣的近似將基於通過插入參數的估計量而獲得。
然后,由於作為漸近多元分布,參數的任何線性組合也將是正態的,即具有正態分布。所有這些數量都可以輕松計算。首先,我們可以得到估計量的方差

因此,如果我們與回歸的輸出進行比較,

  1.  
    > summary(reg)$cov.unscaled
  2.  
    (Intercept) speed
  3.  
    (Intercept) 0.0066870446 -3.474479e-04
  4.  
    speed -0.0003474479 1.940302e-05
  5.  
    > V
  6.  
    [,1] [,2]
  7.  
    [1,] 0.0066871228 -3.474515e-04
  8.  
    [2,] -0.0003474515 1.940318e-05

根據這些值,很容易得出線性組合的標准偏差,

一旦我們有了標准偏差和正態性,就得出了置信區間,然后,取邊界的指數,就得到了置信區間

  1.  
    > segments(30,exp(P2$fit-1.96*P2$se.fit),
  2.  
    + 30,exp(P2$fit+1.96*P2$se.fit),col="blue",lwd=3)

 

基於該技術,置信區間不再以預測為中心。

 

  • 增量法

實際上,使用表達式作為置信區間不會喜歡非中心區間。因此,一種替代方法是使用增量方法。我們可以使用一個程序包來計算該方法,而不是在理論上再次寫一些東西,

  1.  
     
  2.  
     
  3.  
     
  4.  
     
  5.  
    > P1
  6.  
    $fit
  7.  
    1
  8.  
    155.4048
  9.  
     
  10.  
    $se.fit
  11.  
    1
  12.  
    8.931232
  13.  
     
  14.  
    $residual.scale
  15.  
    [1] 1

 

增量法使我們具有(漸近)正態性,因此一旦有了標准偏差,便可以得到置信區間。

 

通過兩種不同的方法獲得的數量在這里非常接近

  1.  
    > exp(P2$fit-1.96*P2$se.fit)
  2.  
    1
  3.  
    138.8495
  4.  
    > P1$fit-1.96*P1$se.fit
  5.  
    1
  6.  
    137.8996
  7.  
    > exp(P2$fit+1.96*P2$se.fit)
  8.  
    1
  9.  
    173.9341
  10.  
    > P1$fit+1.96*P1$se.fit
  11.  
    1
  12.  
    172.9101
  • bootstrap技術

第三種方法是使用bootstrap技術基於漸近正態性(僅50個觀測值)得出這些結果。我們的想法是從數據集中取樣,並對這些新樣本進行log-Poisson回歸,並重復很多次數,

 

 

 


參考文獻

1.用SPSS估計HLM層次線性模型模型

2.R語言線性判別分析(LDA),二次判別分析(QDA)和正則判別分析(RDA)

3.基於R語言的lmer混合線性回歸模型

4.R語言Gibbs抽樣的貝葉斯簡單線性回歸仿真分析

5.在r語言中使用GAM(廣義相加模型)進行電力負荷時間序列分析

6.使用SAS,Stata,HLM,R,SPSS和Mplus的分層線性模型HLM

7.R語言中的嶺回歸、套索回歸、主成分回歸:線性模型選擇和正則化

8.R語言用線性回歸模型預測空氣質量臭氧數據

9.R語言分層線性模型案例


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM