關聯, 介入, 反事實
機器學習做的大部分都是關於"關聯", 即兩個變量之間有相關性, 卻不能給出一者對另外一者是否有影響, 以及影響程度是多大
而介入就會探討變量之間的因果關系
因為在實踐中往往不存在真正的隨機試驗, 所以需要實驗組和對照組
利用 實驗組的前后對比 - 對照組的前后對比 其中通過某種措施(反事實), 獲得了實驗組假如不實施措施的指標, 來消除實驗組和對照組樣本本身可能存在的差異
我們設$y_{1i}$表示對用戶i實施了措施的收益, $y_{0i}$表示沒有實施時的收益
用$D_{i} \in \{ 0,1 \} $表示對用戶i是否實施了措施.
顯然我們可以得到$E(y_{1i}|D_{i}=1)$ 和 $ E(y_{0i} | D_{i}=0)$
當衡量實施措施的收益時, $$E(y_{1i}|D_{i}=1) - E(y_{0i} | D_{i}=0) = E(y_{1i} | D_{i}=1) - E(y_{0i} | D_{i}=1) + E(y_{0i} | D_{i}=1) - E(y_{0i} | D_{i}=0)$$
$E(y_{0i} | D_{i}=1)$ 代表了這樣一種假設: 當對實驗組用戶不實施措施時(反事實), 期望收益有多大.
假如實驗組用戶和對照組用戶本身有差異, 對照組用戶本來收益就小, 而實驗組用戶本來收益就大(不論有沒有實施), 此時會導致實驗組的$E(y_{1i} | D_{i}=1) - E(y_{0i} | D_{i}=1)$被低估甚至使$G<0$, 那么就會導致錯誤的結論.
counterfactuals, 反事實
average treatment effects (ATE), 平均處理效應
average treatment effects on treated units (ATT),
and individual treatment effects (ITE).
在廣告上的應用: 廣告界的因果推斷挑戰 | 統計之都 (cosx.org)
