辛普森悖论
介绍
观察下面 表格:
Treatment A | Treatment B | |
---|---|---|
Small stones | Group 1 93% (81/87) | Group 2 87% (234/270) |
Large stones | Group 3 73% (192/263) | Group 4 69% (55/80) |
Both | 78% (273/350) | 83% (289/350) |
分析:
治疗方法A在小、大肾结石分类下都比B的康复率高;但是结合在一起观察,B的康复率比A高;
辛普森悖论:在分组比较中都占优势的一方,在总评中有时反而是失势的一方。
分析
1,辛普森悖论成立时,通常是忽略了因果关系(causal relation)
;
影响康复率的根本因素是病情严重,而不是治疗方法;
2,分组后观察数据更加清晰;
分组后,组之间的规模大小size差距悬殊,这导致各组权重
应该是不同的。
案例中,在轻症患者分类下,方法B虽然处于弱势,但是弱的程度并不大,且B的规模比方法A大,这导致了方法B综合比A强;
从数据综合来看:方法A适用重症,B适用轻症;
数学原理
\[\left\{ \begin{array}{l} \frac {a_1}{b_1}>\frac {a_2}{b_2}\\ \frac {c_1}{d_1}>\frac {c_2}{d_2}\\ \end{array} \right.\not\Rightarrow\frac{a_1+c_1}{b_1+d_1}>\frac{a_2+c_2}{b_2+d_2} \]
图像表示
B1优于L1且B2优于L2,但是B1+B2弱于L1+L2;
基本比率谬误
介绍
人群中,患某病的比例是a=1%;即一百人里有1人患病;
做病症试验反应,真阳性、真阴性的概率均是b=90%;即患者中,阳性概率是0.9;不患病中,阴性概率是0.9(即检测试剂存在误差);
现在某人反应为阳性,患病的概率是?
数学原理
\[P(患病|阳性)=\frac{P(患病且阳性)}{P(阳性)}=\frac{P(阳性|患病)*P(患病)}{P(阳性|患病)*P(患病)+P(阳性|非不患病)*P(不患病)}=\frac{ab}{ab+(1-a)(1-b)}=8.3\% \]
因为分母中存在\((1-a)(1-b)\)进行分担,也就是假阳性概率(1-b)低,但是不患病概率(1-a)非常高,综合分母也大
;