拓端tecdat|R語言分布滯后非線性模型(DLNM)空氣污染研究溫度對死亡率影響建模應用


原文鏈接:http://tecdat.cn/?p=23564

原文出處:拓端數據部落公眾號

環境應激源往往表現出時間上的滯后效應,這就要求使用足夠靈活的統計模型來描述暴露-反應關系的時間維度。在此,我們開發了分布式滯后非線性模型(DLNM),這是一個可以同時代表非線性暴露-反應依賴性和滯后效應的建模框架。這種方法是基於 "交叉基准 "的定義,這是一個雙維的函數空間,它同時描述了沿預測空間和其發生的滯后維度的關系形狀。

通過這種方式,該方法為以前用於該環境的一系列模型提供了一個統一的框架。為了說明這個方法,我們用DLNMs的例子來表示溫度和死亡率之間的關系,使用1987-2000年期間國家發病率、死亡率和空氣污染研究中的數據。

簡介

有時特定暴露事件的影響並不局限於觀察到的那段時間,而是在時間上有所滯后。這就帶來了一個問題,即對暴露事件與未來一系列結果之間的關系進行建模,指定事件發生后不同時間的影響分布(定義的滯后期)。最終,這一步需要定義暴露-反應關系的額外滯后維度,描述影響的時間結構。

在評估環境應激源的短期影響時,這種情況經常發生:一些時間序列研究報告稱,暴露在高水平的空氣污染或極端溫度下,會在發生后的幾天內影響健康。此外,當一個應激源主要影響一批脆弱的個體時,就會出現這樣的現象,這些個體的事件只因暴露的影響而提前了短暫的時間。

在已經提出的處理之后效應的各種方法中,分布式滯后模型(DLM)發揮了主要作用,最近在空氣污染和溫度研究中被用來量化健康效應。這種方法的主要優點是,它允許模型包含暴露-反應關系的時間過程的詳細表述,這反過來又提供了對存在滯后貢獻或收獲的總體效應的估計。

雖然傳統的DLMs適合於描述線性效應的滯后結構,但在用於表示非線性關系時,它們顯示出一些局限性。我們提出了一個解決方案,進一步放寬對關系的假設,並將這種方法擴展到分布式滯后非線性模型(DLNM),這是一個模型家族,可以以靈活的方式描述沿預測器空間和其發生的滯后維度同時變化的效應。通過這種方式,DLNM類也為現有的較簡單的方法提供了一個統一的框架。

DLNMs以前只在流行病學方面進行過簡單的描述:本文的目的是嚴格地發展這種方法,並描述在統計軟件R中專門編寫的軟件包dlnm中的實現,提供一個使用真實數據集的應用實例。我們簡要描述了時間序列分析中使用的基本模型,並介紹了基礎的概念,作為描述變量和因變量之間非線性關系的一般方法。我們概述了在時間上滯后效應的復雜性,並提供了一個簡單的DLMs的一般表示。然后說明了這種方法在溫度對死亡率影響的建模中的應用。最后我們提供了一些討論並提出了可能的進一步發展。

基本模型

一般的表示法

描述結果Yt的時間序列(t=1,...,n)的一般模型表示方法為

其中,≡E(Y ),g是一個單調的函數,Y被假定來自屬於指數族的分布。函數sj表示變量x j和線性預測器之間的平滑關系,由參數向量bj定義。變量uk包括其他預測因子,其線性效應由相關系數k指定。函數sj也可以通過基於廣義加性模型的非參數方法來指定。然而,在目前的發展中,我們依靠的是一種完全的參數化方法。

在環境因素的時間序列分析中,結果Yt通常是每日計數,假定來自所謂的過度分散泊松分布。這些研究利用了過去幾年中統計方法的重大改進,來量化空氣污染的短期影響。通常,這些方法包括一個平滑的時間函數,以識別隨時間緩慢變化的混雜因素的影響,表現為季節性或長期趨勢。也包括溫度和濕度等氣象因素的非線性影響。分類變量,如一周中的幾天或年齡組被作為因素進行模擬。盡管空氣污染通常用線性關系來描述,但為了評估非線性效應,這一假設可以放寬。

在這里,我們關注的是一個一般的函數s,它指定了預測因子x的潛在非線性和滯后效應,通常指的是空氣污染或溫度,但不失一般性。

基函數

x和g()之間的關系由s(x)表示,它作為一個線性項的總和包含在廣義線性模型的線性預測器中。這可以通過選擇一個基數來實現,基數是一個函數空間,我們認為s是其中的一個元素。相關的基函數包括一組完全已知的原始變量x的變換,產生一組新的變量,稱為基變量。估計關系的復雜性取決於基數的類型和它的維度。幾個不同的基礎函數被用來描述環境因素對健康的潛在非線性影響,其選擇取決於對關系形狀的假設、調查的具體目的所要求的近似程度以及解釋問題。在完全參數化的方法中,主要的選擇通常依賴於描述平滑曲線的函數,如多項式或樣條函數,或使用線性閾值參數化,由截斷的線性函數(x-)+表示,當x>時等於(x-),否則等於0。上述簡單模型的一般表示方法為

滯后效應

額外維度

在存在滯后效應的情況下,在給定時間t的結果可以用過去的暴露xt-來解釋,滯后代表暴露和反應之間所經過的時間。一個相對簡單的方法是對有序暴露的原始向量x進行轉換,得出n×(L+1)矩陣Q,如

這一步規定了暴露-反應關系的額外滯后維度。最終,這里提出的建模框架的目的是同時描述兩個維度的依賴關系:通常的預測器空間和新的滯后維度。

分布滯后模型

當假設有線性關系時,滯后效應可以自然地用分布式滯后模型(DLM)來描述。這種方法允許將單一暴露事件的影響分布在一個特定的時間段內,用幾個參數來解釋不同滯后期的貢獻。這些模型已被廣泛用於評估環境因素的滯后效應。最簡單的表述是無約束的DLM,通過為每個滯后期加入一個參數來指定。不幸的是,由於相鄰天數的暴露之間的高度相關性以及由此產生的模型中的串聯性,對特定滯后期效應的估計精度往往非常差。

為了使分布式滯后曲線的估計更加精確,可以施加一些限制條件,例如假設滯后區間內的效應不變,或者使用連續函數如多項式或樣條來描述平滑曲線。一個以前L天暴露量的移動平均數為預測因子的簡單模型可以被視為DLM的一個特例:這樣的模型已被廣泛用於空氣污染流行病學領域,有時也被用於量化溫度的影響。這類模型以前只給過多項式 DLMs。有可能制定一個更簡單和通用的DLM定義,其中沿滯后期的分布效應的形狀由一個適當的基礎指定。在矩陣記號中

我們可以定義

通過構建每個滯后期的隱含線性效應b,可以幫助解釋估計的參數gˆ,具體如下。

分布式滯后非線性模型 

有完善的方法來描述簡單滯后模型的靈活暴露-反應關系,或者是簡單線性效應的靈活DLM,但很少同時對這兩個部分進行建模。已經提出了描述非線性效應的擴展方法,通過對閾值或分段函數的每個項或對線性和二次項分別應用約束矩陣C,可以構建一個DLM。盡管如此,這些方法在描述這種復雜的依賴關系的能力方面仍然有些局限。通過產生一個新的模型框架,可以描述預測器空間和滯后期的非線性關系,從而實現一個有用的概括,這就是DLNM家族。

交叉基的概念

雖然DLNM的代數符號可能相當復雜,涉及到三維數組,但基本概念是建立在交叉基數的定義上的,是很簡單的。交叉基點可以被描繪成一個雙維的函數空間,同時描述沿x的關系的形狀及其分布的滯后效應。選擇交叉基點相當於選擇兩組基函數,它們將被組合起來產生交叉基函數。

DLNM

為了對我們所考慮的兩個空間的關系形狀進行建模,我們需要同時應用描述的兩個轉換。首先,如(2)所述,我們為x選擇一個基礎來定義預測器空間中的依賴關系,指定Z。然后,如(3)所述,我們為存儲在Z中的x的每個派生基變量創建額外的滯后維度。該結構是對稱的,即兩個轉換的順序可以顛倒,將基函數直接應用於矩陣Q的每一列。

解釋DLNM

盡管參數化很復雜,但對DLNM參數的估計和推斷並不比任何其他廣義線性模型產生更多的問題,而且在指定交叉基變量后,可以用普通的統計軟件進行。然而,雖然(4)中較簡單的DLM的解釋是直接的,包括報告(6)中每個滯后的估計線性效應bˆ,但更復雜的DLNM的結果與平滑的非線性依賴關系很難總結。一個解決方案是為每個滯后期和適當的暴露值建立一個預測網格,使用三維圖來提供沿兩個維度變化的影響的總體情況。

預測網格,用預測效果E的m×(L+1)矩陣和相關的標准誤差Esd矩陣表示,可以使用估計系數的向量gˆ,從包括交叉基函數矩陣W的擬合模型中計算得出。

並且,給定V(gˆ)為估計系數的方差矩陣

這個網格對於計算滯后p的暴露效果或滯后x p的暴露效果的估計很有用,只需分別取e-p和ex p-。最后,通過將不同滯后期的所有貢獻相加,可以計算出總體效應的估計值。矢量etot和相關的標准誤差esd tot,由每個滯后期的貢獻相加得到,說明整個滯后期的暴露效果。

應用

數據和模型選擇

我們應用DLNMs來研究1987-2000年期間溫度對總體死亡率的影響。數據集來自國家發病率、死亡率和空氣污染研究。

它包括5114個總體和特定病因的死亡率、天氣和污染數據的每日觀測。

分析基於(1)中的模型,通過准泊松族的廣義線性模型進行擬合,在控制混雜因素方面有以下選擇:每年有7個自由度(df)的時間自然立體樣條,以描述長期趨勢和季節性;每周一天的指標變量;滯后0-1的露點溫度平均值有3個自由度的自然立體樣條;滯后0-1的臭氧和CO的平均值的線性項。

  1.  
    glm(death ~ ns.basis + ns(dp01,df=3) + dow + o301 + co01 +
  2.  
    ns(date,df=14*7),family=quasipoisson(), data)

這些選擇是根據幾篇關於時間序列分析的方法學和實質性論文。通過選擇兩個基點來描述溫度和滯后期空間的關系,研究了平均溫度的影響;我們說明了一個靈活的模型,用自然立體樣條來描述每個維度的關系。結點被放置在溫度范圍內等距的數值上,以便在尾部有足夠的靈活性,而在滯后期的對數尺度上等距放置,以便在分布式滯后期曲線的第一部分有更多的靈活性,因為在那里預計會有更多的變化。最大的滯后期L被設定為30天。為了比較,我們用前幾天溫度的移動平均數擬合了比較簡單的模型。

我們根據修改后的赤池和貝葉斯信息標准來選擇結的數量,它定義了每個維度上的df,用於通過准似然法擬合的具有過度分散反應的模型,具體內容如下。

所有的分析都是用R軟件進行的。

  1.  
    # 3-D 圖
  2.  
    plot(ns.pred,label="Temperature")

結果

當用於比較不同的建模選擇時,QAIC導致了一個相對復雜的模型,預測器空間有11df,滯后維度有5df,總共有55個參數用於定義關系。相比之下,QBIC表明是一個5×5df的模型,用25df來描述總體效果。由於對DLNM框架內這些標准的表現沒有任何了解,我們選擇了后者作為我們的最終模型。

圖1提供了溫度對死亡率影響的總體情況,顯示了與參考值21◦C(總體最低死亡率點)相比,沿着溫度和滯后的相對風險(RR)的三維圖。該圖顯示了熱的非常強烈和直接的影響,並表明對極熱的溫度有更多的滯后影響。寒冷溫度的最大影響大約在滯后2-3年達到。

盡管3-D圖是總結兩個維度的總體關系的有用工具,但不能包括估計的不確定性。為了對這種關系進行更具體的評估,我們可以繪制特定溫度或滯后期的影響。圖2顯示了特定滯后期(0、5、15和28)的溫度和特定溫度(-10.8、-2.4、26.5和31.3◦C)的滯后期的RR,大約對應於溫度分布的第0.1、5、95和99.9百分位數(稱為中度和極端寒冷和炎熱)。溫度的總體影響,將分析中考慮的30天滯后期的貢獻相加,包括在下面。溫度-死亡率關系似乎隨着滯后期而變化,滯后期0和5的最低死亡率點不同(左上角的前兩個圖)。該圖證實,如果與中度高溫相比,極端高溫的影響更為滯后,其顯著風險分別持續10天和3天(右上角第三和第四張圖)。盡管如此,只有極端高溫表明可能存在收獲效應,在滯后15天后開始。相對於21◦C的總體估計RR是1.24(95%CI:1.13-1.36)和1.07(95%CI:1.03-1.11),對於極端和中度高溫來說。寒冷的溫度顯示出完全不同的模式,中度寒冷的影響持續到滯后25天(右上角的前兩個圖)。此外,寒冷的影響似乎趨於平緩,中度寒冷的總體RR略高,為1.30(95%CI:1.20-1.40),而極度寒冷的RR為1.20(95%CI:1.04-1.39)(如下圖)。

plot(ns.pred,"overall"

為了將這一DLNM與更簡單的替代方法進行比較,對滯后0-1和滯后0-30的移動平均和溫度空間的相同樣條函數的模型進行了擬合。前者對高溫的影響提供了類似的估計,但顯示低溫的影響較弱,中度寒冷的估計RR為1.06(95%CI:1.03-1.09)。這一差異可能是由於低估了,因為低溫產生的影響持續時間超過2天。相反,滯后0-30的移動平均模型對寒冷的影響相似,但對高溫的估計較低,對中度和極端高溫的RR分別為1.01(95%CI:0.97-1.04)和1.06(95%CI:0.97-1.17)。考慮到滯后期內的每一個先前的暴露都被假定為對每一天的影響提供了相同的貢獻,平均31天的估計值可能會造成一些偏差,這是可信的。上述標准表明DLNM的擬合效果更好,如果與滯后0-1和0-30移動平均模型相比,QAIC的差異為571和517,QBIC為468和445。

已經進行了敏感性分析,以評估模型選擇的影響。特別是,我們評估了與改變用於指定交叉基函數(沿兩個維度)以及季節性和長期趨勢部分的df有關的估計總體效果的變化。增加溫度空間的結數,產生的平滑曲線要少得多,可能是由於過度擬合,而在滯后維度上選擇不同的樣條,沒有明顯的變化。使用更多的df來控制季節和長期趨勢並不影響估計值,除了在非常低的溫度下溫度-死亡率曲線有不太明顯的下降。

此外,對滯后和特定溫度曲線的檢查顯示,當增加季節性控制時,在長滯后期的負面效應完全消失了。因為具有較長滯后期的模型的效果對季節性成分更敏感。

討論

在本文中,我們描述了DLNMs的類別,可以用來模擬同時顯示非線性依賴和滯后效應的因素的影響。DLNM在概念上是簡單的,但又足夠靈活,允許有廣泛的模型,包括以前使用的簡單模型和更復雜的新變體。

概念上的簡單性允許構建一個R包來擬合這種廣泛的模型。這種豐富的選擇(基礎類型、結的數量和位置、最大滯后)所強調的一個困難是,可以用什么標准來選擇替代品。

在上面的例子中,我們用信息標准來指導結點數量的選擇,但在選擇基類型和最大滯后時,我們用的是先驗論證。以前從流行病學的角度對DLNM的選擇進行了討論,由於對什么是 "最佳 "模型沒有共識,敏感性分析特別重要,可以評估關鍵結論對模型選擇的依賴性。

DLMN的范圍很廣,這有助於實現這一目標。回歸診斷,如殘差和部分自相關圖,也可能有幫助。此外,我們已經討論了DLNM的選擇,假設它集中在感興趣的變量上(在我們的例子中是溫度)。還有一個協變量的模型選擇問題,其中的一些部分也可能是DLNMs。

這個問題,有時被稱為調整的不確定性。同樣,在什么方法是最佳的問題上還沒有形成共識,對模型選擇的這一部分的敏感性分析也很重要。

參考文獻

1. Zanobetti A, Schwartz J, Samoli E, Gryparis A, Touloumi G, Atkinson R, Le Tertre A, Bobros J, Celko M, Goren A, Forsberg B, Michelozzi P, Rabczenko D, Aranguez Ruiz E, Katsouyanni K. The temporal pattern of mortality responses to air pollution: a multicity assessment of mortality displacement. Epidemiology 2002; 13(1):87--93.

2. Braga AL, Zanobetti A, Schwartz J. The time course of weather-related deaths. Epidemiology 2001; 12(6):662--667.

3. Schwartz J. Is there harvesting in the association of airborne particles with daily deaths and hospital admissions? Epidemiology 2001; 12(1):55--61.


最受歡迎的見解

1.在python中使用lstm和pytorch進行時間序列預測

2.python中利用長短期記憶模型lstm進行時間序列預測分析

3.使用r語言進行時間序列(arima,指數平滑)分析

4.r語言多元copula-garch-模型時間序列預測

5.r語言copulas和金融時間序列案例

6.使用r語言隨機波動模型sv處理時間序列中的隨機波動

7.r語言時間序列tar閾值自回歸模型

8.r語言k-shape時間序列聚類方法對股票價格時間序列聚類

9.python3用arima模型進行時間序列預測


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM