【統計】Causal Inference


【統計】Causal Inference

原文傳送門

http://www.stat.cmu.edu/~larry/=sml/Causation.pdf

過程

一、Prediction 和 causation 的區別

img

img

現實中遇到的很多問題實際上是因果問題,而不是預測。

因果問題分為兩種:一種是 causal inference,比如給定兩個變量 X、Y,希望找到一個衡量它們之間因果關系的參數 theta;另一種是 causal discovery,即給定一組變量,找到他們之間的因果關系。對於后面這種 causal discovery,notes 里面說它在統計上是不可能的。

數據有兩種產生途徑:一種是通過有意控制、隨機化的實驗得到的;一種是通過觀測數據得到的。前一種方式能夠直接做 causal inference;后一種方式需要另外知道一些先驗知識,才能在上面做 causal inference。

對因果關系描述的數學語言:一種是 counterfactuals,一種是 causal graph;還有一種和 causal graph 相近的 structural equation models。

Correlation is not causation

預測問題可以寫為

img

它表示的是,如果我們觀察到 X=x,預測 Y。而因果推斷關系的是

img

它表示我們如果把某個變量 X 設置為 x,那么 Y 會是多少。數學上表示出來就是

img

一個簡單的例子『睡眠超過 7 小時的人』(X)『生病少』(Y),只是代表 X 和 Y 之間有關聯性,並不代表如果強制一個人睡眠超過 7 小時,ta 就能夠生病少。因為可能『身體好的人』容易『睡眠超過 7 小時』,同時 ta 也『生病少』;但是一個本來身體不好的人,強制 ta 睡眠多,ta 可能也生病不會少。

Notes 里面想要說明的結論是:因果關系可以從隨機化的實驗中得到;但是很難從觀察到的數據中得到。

另外一個例子說明 correlation 和 causation 的區別

考慮數據是由一段程序生成的:

img

估計 correlation [公式] 時,我們會統計 Z=z & Y=y 的樣本占 Y=y 樣本的多大比例,它等價於

img

當我們研究因果關系的時候,我們是想知道,如果『設置』Y=y,會怎樣引起 Z 的分布;該過程可以用如下程序模擬

img

在這種情況下,我們再統計 Z=z 占總體樣本的比例,即

img

二、Counterfactuals

考慮一個 treatment X,和一個 outcome Y。我們能觀察到的是一些數據 [公式] ,但是我們無法知道如果對於某一個數據點 [公式] ,如果改變 X 的值,Y 會怎么變。這件事情就叫做 counterfactual。Notes 里面給了一個圖(下圖),從數據上看,X 和 Y 是正相關的,但其實對於每一個 樣本來說,如果增大 X,會引起 Y 的減小。這一點最開始看的時候並不好理解。舉一個例子。研究航空公司票價(X)對銷量(Y)的影響,顯然,對於某一個客戶來說,增加票價(X 變大)會降低客戶購買意願,即使得銷量將達(Y 變小)。但是實際中的情況是,在節假日人們出行意願大導致銷量高(Y 大),定價也會相應變高(X 大),從而從數據上看,形成左邊圖的情形。

img

假設 X 取值 0 或者 1,Y 也取值 0 或者 1。引入變量 [公式] ,認為

img

這兩個變量也叫做 potential outcome 或者 counterfactuals,因為如果在數據中觀察到 X=0,就只能觀察到 [公式] ,而此時的 [公式] 就沒法觀察到了。比如,一個觀察到的數據集長這樣:

img

而我們關心的 [公式][公式] 。而由於這些未知的 * 的存在,使得我們沒有辦法估計到它們。但是,顯然有

img

定義

img

為 mean treatment effect,它可以被看做是一個衡量因果關系的參數;如果它大於零,表示我們設置 X=1 會在期望上增大 Y(這是一個因果推斷)。

文章下面給出了一個定理,說明不可能從數據里面估計出 [公式]

img

其中 uniformly consistent estimator 的定義是

img

其實這很好理解,可以構造兩個數據集,它們有不同的 [公式] 分布,使得它們 [公式] 不同,但是形成的數據 [公式] 是一樣的。這可以通過任意設置前面例子中的 * 來實現。

那么應該如何估計 [公式] 呢?下面介紹兩種方法:一種方法就是使用 randomization,另一種方法叫做 adjusting for confounding。

三、用隨機化來估計因果關系

如果我們能夠隨機設定 X 的值,使得 X 和 [公式] 相互獨立,就能有辦法估計 [公式] ,即

img

img

可以這么做最主要的原因就是當 X 和 [公式] 相互獨立時, [公式] ,因此, [公式] ,即

img

總結來說,在完全隨機的情況下(X 和 [公式] 相互獨立),correlation=causation。

【注】Randomization 並不意味着 X 的選取要是 uniformly random(比如一半選 0,一半選 1),可以令 X 為任意分布,只要它和 [公式] 相互獨立即可。

四、Adjusting for Confounders

有些時候我們沒法做實驗,只能從可以觀察的數據中來估計。比如,研究抽煙(X)和肺癌(Y)之間的因果關系,不可能故意選人去讓他抽煙或者不抽煙。那么應該如何找到其中的因果關系呢?

Causal inference in observational studies is not possible without subject matter knowledge

注意到,觀察到的數據中不能假設 X 和 [公式] 相互獨立。這里考慮一個例子,服用 VC(X)對於健康與否(Y)的關系。一個健康的人不論吃不吃 VC,理應都是健康的,但是健康的人喜歡吃 VC;一個不健康的人無論吃不吃 VC,他都不健康。因此,我們可能觀察到如下數據(X=1 表示吃 VC,Y=1 表示健康)。

img

因此,實際情況是吃 VC 和健康之間沒有因果關系,即 [公式] ;但是從數據中的估計來看,這二者之間有很強的關聯,即 [公式]

Use confounding variables

雖然在數據中 X 和 [公式] 不相互獨立,但是如果我們能夠找到共同影響 X 和 Y 的因素,並把它通過某種統計方式排除的話,也可以可以做因果推斷的。這里的共同因素就是 confounding variables Z,即希望找到一個 [公式] ,使得 there is no unmeasured confoundings or ignorability holds

img

下面的定理就是說,如果 能夠觀察到這樣的 confounding variable,那么也能夠做因果推斷。

img

img

證明過程也比較好理解,因為在 Z 給定之后 X 和 [公式] 是相互獨立的(箭頭標注的那一步)。

img

這個方法叫做 adjusting for confounders,同時也把這上面的 [公式] 叫做 adjusted treatment effect。

Intuitive 地來說,拿航空公司票價(X)和銷量(Y)的例子來說,它們可能受到節假日(Z)的影響,節假日的時候(Z=1)票價高,銷量也大。要搞清楚其中的因果關系,就需要分別在是節假日(Z=1)和非節假日的時候(Z=0)統計 X、Y 的關系。

The usual bias-variance tradeoff does not apply

Notes 里面提到,在估計 [公式] 的時候要特別小心,在因果推斷里面 bias 的危害會更大,因此擬合的時候會盡量更『平滑』。這一塊有特別的一些方法來解決該問題,叫 semiparametric inference 以及后面會講的 matching。

對於前面這個離散的例子來說,可以對 [公式] 做線性擬合,即 [公式] 。我們可以看到,這種情況下,線性回歸中 x 前面的系數就代表了 x 的 causal effect。

img

對於連續的情形類似地,有

img

總結:如果 1)線性模型正確;2)所有的 confounding variables 都包含到回歸方程中了,那么 x 前面的系數就表示 x 的 causal effect。

五、Causal Graphs

Causal graph 是一個有向無環圖(DAG),表明了各個變量之間的聯合概率分布

img

下面舉例說明,在給定一個 causal graph 之后,如何做因果推斷。考慮下面一個 causal graph,目標是求 [公式]

img

首先,可以看出該 causal graph 提供的信息為 [公式]

接下來,由於考慮的是設定 X 的數值的影響,因此構建一個新圖 [公式] ,移除掉所有指向 X 的邊,得到新的聯合概率分布 [公式]

最后,該概率分布下的數值就是因果推斷的結果

img

[公式] 情形下,

img

和 adjusting for confounder 方法的等價性

比如還是在 [公式] 情形下,從上述方法出發計算 [公式]

img

其結果和 adjusting for confounder 方法一致。

和 randomized experiment 方法的等價性

當 X 的選取是隨機時,就沒有從 Z 到 X 的箭頭了,因此直接在概率圖上計算可以得到 [公式] ,和這里得到的一致。

Causal graph 和 probability graph 的區別

舉例說明,比如下雨(Rain,R)和濕草坪(Wet Lawn,W)是不相互獨立的, 即 [公式]

對於下兩種 DAG,它們都是合理的 probability graph,即對於任意的聯合概率分布 [公式] ,都可以寫成 [公式] 或者 [公式] 。但顯然下雨是因、草坪濕是果,只有左邊的圖才是正確的 causal graph。

img

分析 [公式] ,按照應該關系,把草坪弄濕不會影響是否下雨。對左邊的圖推斷 [公式] ,先把指向 W 的邊去掉,形成如下圖

img

因此得到 [公式] ,由此得出結論 [公式] ,即草坪弄濕不引起下雨。

六、Causal Discovery 是不可能的

下面想說明的是在不做 randomized experiment 並且也觀察不到所有 confounders 時,研究兩個變量之間是否有因果關系是不可能的。

考慮一個最簡單的情形,就是研究『 X 是否引起 Y(X、Y 之間是否有因果關系)』;同時能夠肯定地排除掉『Y 引起 X 』的情形(比如,時間先后關系,發生在后面的不可能引起發生在前面的)。考慮可能的 confounding variable U,它們之間可能的關系有如下八種。

img

如果我們只能觀察到 X、Y 的數據,能做的是估計 [公式] 。如果 [公式] 說明 X、Y 之間有關聯,因此可能的情況是 4-8,這里面有些情況下 X->Y,有些是沒有,因此無法得出什么有效的結論;如果 [公式] ,基本上鎖定是 1-3 中的情況,我們發現這三種情況中 X 都不引起 Y,於是我們能得出結論 X 和 Y 之間沒有因果關系。這是錯的!

情況 8 也能夠引起 [公式] !比如 X->Y 的影響可能會被 U->Y 的影響抵消,這稱作 unfaithfulness,這樣的情形記做 [公式] 。舉一個粗俗的例子,比如情況 8 中的關系都是確定性的,Y|U = -U, Y|X,U = X+U,於是乎,按照這樣的模型生成的 Y 全部等於零,顯然估計出來的 [公式]

因此,要想得出結論得出結論 X 和 Y 之間沒有因果關系,還必須限定 faithfulness。

img

Notes 后面還講了,總存在一個 faithful 的分布使得在樣本足夠多的時候,產生足夠大的 type I error。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM