原文鏈接:http://tecdat.cn/?p=10148
今天的主題是Stata中的治療效果功能。
治療效果估算器根據觀察數據估算治療對結果的因果關系。
我們將討論四種治療效果估計量:
- RA:回歸調整
- IPW:逆概率加權
- IPWRA:具有回歸調整的逆概率加權
- AIPW:增強的逆概率加權
我們將保存第2部分的匹配估算器。
與對觀測數據進行的任何回歸分析一樣,因果關系的解釋必須基於合理的基礎科學原理。
介紹
我們將討論治療方法和結果。
一種治療可能是新葯,其結果是血壓或膽固醇水平升高。治療可以是外科手術,也可以是患者活動的結局。治療可以是職業培訓計划以及結果就業或工資。待遇甚至可以是旨在提高產品銷量的廣告系列。
考慮一下母親吸煙是否會影響嬰兒出生時的體重。只能使用觀測數據來回答這樣的問題。
觀察數據的問題是受試者選擇是否接受治療。例如,母親決定吸煙還是不吸煙。據說這些受試者已自我選擇進入治療組和未治療組。
在理想的世界中,我們將設計一個實驗來測試因果關系和治療結局之間的關系。我們將受試者隨機分配到治療組或未治療組。隨機分配治療方法可確保治療方法與結果無關,從而大大簡化了分析。
因果推論要求對每個治療水平的結果的無條件估計。無論數據是觀察性的還是實驗性的,我們僅觀察以接受治療為條件的每個受試者的結局。對於實驗數據,治療的隨機分配保證了治療與結果無關。因此,以觀察到的治療為條件的平均結果可估算出無條件的關注手段。對於觀察數據,我們對治療分配過程進行建模。如果我們的模型是正確的,則根據我們模型中的協變量,治療分配過程被認為與隨機條件一樣好。
讓我們考慮一個例子。圖1是類似於Cattaneo(2010)使用的觀測數據的散點圖。治療變量是母親在懷孕期間的吸煙狀況,結果是嬰兒的出生體重。
紅點表示懷孕期間吸煙的母親,而綠點表示未懷孕的母親。母親自己選擇是否吸煙,這使分析變得復雜。
我們不能通過比較吸煙和不吸煙的母親的平均出生體重來估計吸煙對出生體重的影響。為什么不?再看一下我們的圖表。年齡較大的母親往往體重較重,無論懷孕時是否吸煙。在這些數據中,年齡較大的母親也更有可能吸煙。因此,母親的年齡與治療狀況和結局有關。那么我們應該如何進行呢?
RA:回歸調整估計量
RA估計量對結果進行建模,以說明非隨機治療分配。
我們可能會問:“如果吸煙的母親選擇不吸煙,結果將如何改變?”或“如果不吸煙的母親選擇吸煙,結果將會如何改變?”。如果我們知道這些反事實問題的答案,那么分析將很容易:我們只需從反事實結果中減去觀察到的結果即可。
我們可以構建對這些未觀察到的潛在結果的度量,我們的數據可能看起來像這樣:
在圖2中,使用實心點顯示觀察到的數據,而使用空心點顯示未觀察到的潛在結果。空心的紅點代表吸煙者不吸煙的潛在后果。空心的綠色點代表不吸煙者吸煙的潛在后果。
我們可以通過將單獨的線性回歸模型與觀察到的數據(實點)擬合到兩個治療組,從而估計未觀察到的潛在結果。
在圖3中,我們為不吸煙者提供了一條回歸線(綠線),為吸煙者提供了一條單獨的回歸線(紅線)。
讓我們了解這兩行的含義:
圖4左側標記為“已觀察 ”的綠點是對不吸煙的母親的觀察。綠色回歸線上標有E(y0)的點是考慮到母親的年齡並且不吸煙的嬰兒的預期出生體重。紅色回歸線上標有E(y1)的點是同一名母親吸煙后嬰兒的預期出生體重。
這些期望之間的差異估計了未接受治療者的協變量特異性治療效果。
現在,讓我們看看另一個反事實問題。
圖4右側的紅色標記為“ 觀察到的紅色”是對懷孕期間吸煙的母親的觀察。綠色和紅色回歸線上的點再次表示在兩種治療條件下母親嬰兒的預期出生體重(潛在的結局)。
這些期望之間的差異估計了接受治療者的協變量特異性治療效果。
請注意,我們根據每個變量的協變量值來估計平均治療效果(ATE)。此外,無論實際接受哪種治療,我們都對每位受試者估計這種效果。數據中所有受試者的這些效應的平均值估計了ATE。
我們還可以使用圖4來激發對每個受試者在每種治療水平下可獲得的結果的預測,而與所接受的治療無關。這個故事類似於上面的故事。數據中所有受試者的這些預測值的平均值估計每個治療水平的潛在結果均值(POM)。
估計的POM的差異與上述ATE的估計相同。
被治療者(ATET)上的ATE與ATE相似,但僅使用在治療組中觀察到的受試者。這種計算治療效果的方法稱為回歸調整(RA)。
我們在第一組括號中指定結果模型,並帶有結果變量及其后的協變量。在此示例中,結果變量為bweight,唯一的協變量為mage。
我們在第二組括號中指定處理模型(僅是處理變量)。在此示例中,我們僅指定處理變量mbsmoke。我們將在下一節中討論協變量。
鍵入命令的結果是
輸出報告說,如果所有母親吸煙,平均出生體重將為3132克,如果沒有母親吸煙,則平均出生體重將為3409克。
我們可以通過減去POM來估算出生體重時吸煙的ATE:3132.374 – 3409.435 = -277.061。或者,我們可以使用ate選項重新發出teffects ra命令,並獲取標准錯誤和置信區間:
輸出報告的是我們手動計算的相同ATE:-277.061。ATE是每個母親吸煙時出生體重與沒有母親吸煙時出生體重之間差異的平均值。
IPW:逆概率加權估計器
RA估計量對結果進行建模,以說明非隨機治療分配。一些研究人員更喜歡為治療分配過程建模,而不為結果指定模型。
我們知道,在我們的數據中,吸煙者往往比不吸煙者年齡大。我們還假設母親的年齡直接影響出生體重。我們在圖1中觀察到了這一點 。
該圖顯示治療分配取決於母親的年齡。我們希望有一種調整這種依賴性的方法。特別是,我們希望我們有更多的較高年齡的綠色點和較低年齡的紅色點。如果這樣做的話,每組的平均出生體重將會改變。我們不知道這將如何影響均值差異,但是我們知道這將是對差異的更好估計。
為了獲得類似的結果,我們將對較低年齡段的吸煙者和較高年齡段的不吸煙者進行加權,而對較高年齡段的吸煙者和較低年齡段中的不吸煙者進行加權。
我們將采用以下形式的概率模型或logit模型
Pr(女人抽煙)= F(a + b *年齡)
teffects默認使用logit,但是我們將指定probit選項進行說明。
一旦我們擬合了該模型,就可以為數據中的每個觀察獲得預測Pr(女人抽煙)。我們稱這個為p i。然后,在進行POM計算(這只是平均值計算)時,我們將使用這些概率對觀測值進行加權。我們將對吸煙者的觀測值加權為1 / p i,以便當成為吸煙者的可能性較小時,權重將較大。我們將對不吸煙者的觀察加權1 /(1- p i),以便當不吸煙者的概率較小時,權重將較大。
結果是下圖替換了圖1:
在圖5中,較大的圓圈表示較大的權重。
要使用此IPW估算器估算POM,我們可以輸入
第一組括號指定結果模型,在這種情況下,它只是結果變量。沒有協變量。第二組括號指定處理模型,其中包括結果變量(mbsmoke),后跟協變量(在這種情況下,僅是mage)和模型的類型(probit)。
結果是
我們的輸出報告說,如果所有母親吸煙,平均出生體重將為3133克,如果沒有母親吸煙,則平均出生體重將為3409克。
這次,ATE是-275.5,如果我們鍵入
我們將了解到標准誤為22.68,95%置信區間為[-319.9,231.0]。
就像使用teffects ra一樣,如果我們需要ATET,則可以使用atet選項指定teffects ipw命令。
IPWRA:具有回歸調整估計量的IPW
RA估計量對結果進行建模,以說明非隨機治療分配。IPW估算器對處理進行建模以說明非隨機處理分配。IPWRA估算器對結果和治療方法進行建模,以說明非隨機治療方案。
IPWRA使用IPW權重來估計校正后的回歸系數,隨后將其用於執行回歸調整。
結局模型和治療模型中的協變量不必相同,它們常常不是因為影響受試者選擇治療組的變量通常不同於與結果相關的變量。IPWRA估算器具有雙重魯棒性,這意味着如果錯誤指定了治療模型或結果模型(而不是兩者),則效果的估算將保持一致。
讓我們考慮具有更復雜的結果和治療模型但仍使用我們的低體重數據的情況。
結果模型將包括
- 母親的年齡
- 孕早期產前檢查的指標
- 母親婚姻狀況的指標
- :第一胎的指標
治療模式將包括
- 結果模型的所有協變量
- 母親的年齡 ^ 2
- 方法:孕產婦教育年限
我們還將指定aequations選項,以報告結果和治療模型的系數。
輸出的POmeans部分顯示兩個治療組的POM。ATE現在計算為3173.369 – 3403.336 = -229.967。
OME0和OME1部分分別顯示未處理組和已處理組的RA系數。
輸出的TME1部分顯示概率處理模型的系數。
與前兩種情況一樣,如果我們希望ATE出現標准錯誤等,我們將指定ate選項。如果我們需要ATET,則可以指定atet選項。
AIPW:增強型IPW估算器
IPWRA估算器對結果和治療方法進行建模,以說明非隨機治療方案。AIPW估算器也是如此。
AIPW估算器向IPW估算器添加偏差校正項。如果正確指定了處理模型,則偏差校正項為0,並且將模型簡化為IPW估計量。如果治療模型指定不正確,但結果模型指定正確,則偏差校正項會校正估計量。因此,偏差校正項使AIPW估計器具有與IPWRA估計器相同的雙重魯棒性。
AIPW估計器的語法和輸出與IPWRA估計器的語法和輸出幾乎相同。
ATE為3172.366 – 3403.355 = -230.989。
最后的想法
上面的示例使用了一個連續的結果:出生體重。 teffects也可以用於二進制,計數和非負連續結果。
估計量還允許多個治療類別。
參考文獻:
【1】 Cattaneo, M. D. 2010. Efficient semiparametric estimation of multi-valued treatment effects under ignorability. Journal of Econometrics 155: 138–154.
【2】 stata博客
如果您有任何疑問,請在下面發表評論。