因果推理的春天系列序 - 數據挖掘中的Confounding, Collidar, Mediation Bias


已知特征\(X=x_1\)的樣本呈現\(Y=y_1\)的特點,或者\(Y=y_1\)的樣本有\(X=x_1\)的特征,如何計算干預X對Y的影響
Eg. 看快手視頻喜歡評論的用戶活躍程度更高,那引導用戶去發表評論能讓他們更活躍么?

建模特征應該如何選擇,以及特征通過那些途徑最終影響Y
Eg. 個人並不喜歡有啥放啥的建模方式,既增加模型不穩定性還會增加特征解釋的難度。尤其在業務中我們跟多想知道的是不同特征影響Y的方式

如何解釋數據分析中有違常理或者自相矛盾的結論?為什么把數據分組和整體計算會得到不同的結果?
Eg. 葯物實驗結果表明對高血壓患者葯物無效,對低血壓患者葯物也無效,但合起來對全部患者葯物有效?

無法開展AB實驗的時候,我們如何從觀測數據中估計因果關系
Eg. 最常遇到這種問題的是社會學,醫學實驗,例如當兵經歷對收入的影響,吸煙是否會得肺癌。但這也提醒我們有些成本高的AB實驗其實是有可能從已有數據中找到近似答案的。

如果你在和數據打交道的過程中也碰到過以上的問題,那圖靈獎得主Judea Pearl的The Book of WHY可能會幫你打開新世界的大門。因果推理方面我也是新人,這里只是拋出一些觀點來和大家一起討論。下面列舉了因果推理和統計學本質的一些差異, 具體的理論我們在后面章節慢慢展開~

  • 統計學解決的是P(Y|X),它更多是對觀測的刻畫。而因果推理旨在解決What-if問題,用Do-Caculus來表達就是P(Y|do(X)),既對X進行干預,對Y的影響。一個同事開玩笑說因果推理就像開啟上帝之眼

  • 統計學認為數據是一切,而因果推理堅持數據產生的過程是解釋數據所必須的。想直觀感受差異的可以看下這個 Toy Example

  • 統計完全客觀,而因果推理需要依賴基於經驗等因素給出因果圖(DAG)再進行分析計算。

作為序章最重要的是什么?吸引人眼球!所以本章通過5個數據分析中經典案例,看看當統計陷入兩難,因果推理是如何變身奧特曼來打小怪獸的!

以下案例只為直觀感受因果推理的現實意義,暫不考慮統計顯著,小樣本不置信等問題

Confounding Bias - Simpson Paradox

Confounding在數據分析中非常常見,既存在同時影響treatment和outcome的變量沒有被控制,它是統計分析要控制變量的根本原因之一,是AB實驗有效的背后邏輯,它也直接導致了\(P(Y|X) \neq p(Y|do(x))\)但往往Confounder的存在只有在分析結果嚴重不符合邏輯時才被人們想到。

離散Confounder - 案例1. 今天你吃葯了么?

以下是一次觀測性醫學實驗的結果,分別給出男性和女性在服/不服用葯物后心臟病發作的概率。有趣的是這種葯物既不能顯著降低女性病發概率,也不能顯著降低男性病發概率,但卻能降低整體的病發概率,你是分析師請問這種葯物有用么?
image.png-60.3kB

答案是NO,這種葯物無效
這就是著名的Simpson Paradox。用上面的因果圖(DAG)分析結論會變得顯而易見。這里treatment是服葯,outcome是心臟病發作的概率,而因為是觀測性實驗所以性別可能會成為confounder。注意這里我用的是可能。而驗證這種可能性就要看性別是否同時影響treatment和outcome。先看treatment,女性是對照組20,實驗組40,而男性是對照組40,實驗組20。因此性別顯著影響treatment的滲透率 -服葯人群比例。再看outcome,同在對照組女性病發率是5%而男性是30%,因此性別同時影響outcome-病發概率。

因此衡量treatment(服葯)對outcome(心臟病發作)的影響,我們需要控制confounder。這樣總體的發病率計算如下:

\[P(treatment|outcome) = P(treatment|outcome, 男) * P(男) + P(treatment|outcome, 女) * P(女) \]

對照組的整體效果變為 0.5 * 5% + 0.5 * 40% = 17.5%
實驗組的整體效果變為 0.5 * 7.5% + 0.5 * 40% = 23.75%
這樣整體就和男女分別的結論一致,服葯並不能降低心臟病發概率。

連續Confounder - 案例2.運動導致高膽固醇?

在上面的例子中confounder是個離散變量男女。下面我們舉個連續confounder的例子。研究目標是每周運動時間對膽固醇水平的影響。‘影響’在統計學中多數只能依賴於相關關系,於是我們畫個散點圖吧。
嗯?!運動時間越長,膽固醇水平越高!You What?! 這簡直是厭惡運動,堅持生命在於靜止的最好理由。

當然這時有經驗的分析師一定會跳出來說應該要控制變量!其實這里並不是控制一切能控制的人群差異,而只要控制Confounder變量就可以了。一個最直觀的Confounder變量就是年齡。年齡越高膽固醇水平越高,而運動時間越短,它同時影響treatment和outcome。Group by年齡后,我們會得到每個年齡段內運動時間和膽固醇水平是反向的。

下一次根據統計結果給出結論時,無論結果和你的預期 [直覺|第六感|推理|經驗] 多么一致,都記得多想一步喲。看看自己是否遺漏了可能的confounder呢?

Mediation Bias

Mediation Bias最常發生在控制了不該控制的變量而導致影響被人為削弱。在傳統統計學中,因為沒有引入因果推理,本着控制一切能控制的變量來做分析的原則,往往會在不經意間踩進Mediation的深坑。同時Mediation Analysis也是AB實驗后續分析中有很高實用價值的一個方向,有機會咱在AB實驗高端玩法系列中好好聊聊。

變量控制並非越多越好 - 案例3. 今天你又吃葯了嗎?

還記得上面心臟病葯物實驗么?當時我們給出的結論是應該分男女分別計算實驗效果,因為性別是葯物效果的Confounder。這里讓我們把性別因素換成患者血壓,並以此告訴大家分組計算並不是永遠正確的。

數據和案例1一樣,只不過這里的分組變量變成了患者血壓。

這里加入新的假設,已知高血壓是導致心臟病發作的原因之一,且該葯物理論上有降血壓的效果,因此醫生想要檢驗該葯物對防治心臟病的效果。
image.png-59.5kB

因為是觀測性實驗,如果從傳統分析的角度,我們似乎應該控制一切能控制的變量,保證人群一致。但根據假設,結合數據我們能發現服葯患者中高血壓占比顯著下降,這時降血壓成為葯物降低心臟病發作的一個Mediator,也就是部分葯物效果通過降低血壓來降低心臟病發概率。因果圖如下

這種情況下如果我們按血壓對患者分組,相當於Condition on Mediator,人為剔除了葯物通過控制血壓保護心臟的效果,會造成葯物影響被人為低估。因此應該合並計算,葯物對控制心臟病是有效的。

在分析觀測數據時,並非一切變量都應該被控制。 一切處於treatment和outcome因果路徑上的變量都不應該被控制。這里直接計算整體效果是合理的

Collidar Bias - BERKSON PARADOX

Collidar 最直觀的影響是偽相關關系, 往往發生在對局部樣本進行分析時,因為忽略了樣本本身的特點從而得到一些非常奇葩的相關關系。

負‘相關’- 案例4. 孕媽媽應該吸煙?!

1959年的一項關於新生兒的研究中出現了有趣的數據:

  • 已有研究表明孕媽媽吸煙會造成新生兒平均體重偏低
  • 已有研究表明體重過輕(<5.5磅)的新生兒存活率顯著偏低
  • 該實驗數據發現在體重過輕(<5.5磅)的新生兒中,媽媽吸煙的寶寶存活率顯著高於媽媽不吸煙的寶寶

這是正正得負的節奏。。。>_<

還記得上面我們說Collidar Bias最容易在分析局部樣本時發生,而這里體重過輕的新生兒明顯就是局部樣本。讓我們畫一個最簡單的因果圖答案就很明顯了。

通過只觀察體重過輕的新生兒存活率,我們一腳踩進了Collidar='出生體重過輕'這個陷阱,因為Condition on Collidar,從而讓兩個本來無關的原因出現了負向關系。簡單講,就是新生兒缺陷和媽媽吸煙都有可能導致新生兒體重過輕,兩個因素此消彼長,當已知媽媽吸煙的時候,新生兒缺陷的概率會下降。而天生缺陷導致的體重過輕對嬰兒存活率的影響更大是一個合理推斷。因此孕媽媽吸煙反而會導致存活率上升。

上面的DAG並不完整,比如媽媽吸煙也有可能直接引起新生兒缺陷等等。但至少Collidar的存在在這里是很有說服力的

正‘相關’- 案例5. 呼吸道疾病和骨科疾病有關系?

因為Collidar而產生偽關聯的變量往往是負相關的,就像上面的例子,也稱explain-away effect。簡單理解就是A,B都導致Collidar,那控制Collidar,A多了B就少了。但下面這個例子卻是Collidar產生偽正向關系。

image.png-53.4kB

觀察數據不難發現,對普通百姓而言患呼吸道疾病和骨科疾病沒啥關系。但如果只看住院患者,患呼吸道疾病的患者同時患骨科疾病的概率會顯著提升3倍以上!

這個案例的DAG很好畫,但是為什么這里不是負效應而是正效應呢?一種解釋是單獨呼吸疾病,或者骨科疾病直接導致住院的概率都很小,因此這里對於Collidar=‘住院’,兩種疾病形成互補效應而非替代效應,既同時患有兩種疾病的患者住院概率更高。因此只看住院患者就產生了偽正向關系。

上述DAG並不是唯一的可能,也有可能是患者的其他疾病導致住院的同時,導致患呼吸道和骨科疾病的概率上升。Anyway只看到以上數據是無法給出結論的,因此在分析局部樣本的時候請格外小心


序章的案例就分享這么多,開始懷疑人生了有沒有?!


Ref

  1. https://towardsdatascience.com/why-every-data-scientist-shall-read-the-book-of-why-by-judea-pearl-e2dad84b3f9d
  2. Judea Pearl, The Book of Why, the new science of casue and effect


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM