关联, 介入, 反事实
机器学习做的大部分都是关于"关联", 即两个变量之间有相关性, 却不能给出一者对另外一者是否有影响, 以及影响程度是多大
而介入就会探讨变量之间的因果关系
因为在实践中往往不存在真正的随机试验, 所以需要实验组和对照组
利用 实验组的前后对比 - 对照组的前后对比 其中通过某种措施(反事实), 获得了实验组假如不实施措施的指标, 来消除实验组和对照组样本本身可能存在的差异
我们设$y_{1i}$表示对用户i实施了措施的收益, $y_{0i}$表示没有实施时的收益
用$D_{i} \in \{ 0,1 \} $表示对用户i是否实施了措施.
显然我们可以得到$E(y_{1i}|D_{i}=1)$ 和 $ E(y_{0i} | D_{i}=0)$
当衡量实施措施的收益时, $$E(y_{1i}|D_{i}=1) - E(y_{0i} | D_{i}=0) = E(y_{1i} | D_{i}=1) - E(y_{0i} | D_{i}=1) + E(y_{0i} | D_{i}=1) - E(y_{0i} | D_{i}=0)$$
$E(y_{0i} | D_{i}=1)$ 代表了这样一种假设: 当对实验组用户不实施措施时(反事实), 期望收益有多大.
假如实验组用户和对照组用户本身有差异, 对照组用户本来收益就小, 而实验组用户本来收益就大(不论有没有实施), 此时会导致实验组的$E(y_{1i} | D_{i}=1) - E(y_{0i} | D_{i}=1)$被低估甚至使$G<0$, 那么就会导致错误的结论.
counterfactuals, 反事实
average treatment effects (ATE), 平均处理效应
average treatment effects on treated units (ATT),
and individual treatment effects (ITE).
在广告上的应用: 广告界的因果推断挑战 | 统计之都 (cosx.org)