辛普森悖論
介紹
觀察下面 表格:
Treatment A | Treatment B | |
---|---|---|
Small stones | Group 1 93% (81/87) | Group 2 87% (234/270) |
Large stones | Group 3 73% (192/263) | Group 4 69% (55/80) |
Both | 78% (273/350) | 83% (289/350) |
分析:
治療方法A在小、大腎結石分類下都比B的康復率高;但是結合在一起觀察,B的康復率比A高;
辛普森悖論:在分組比較中都占優勢的一方,在總評中有時反而是失勢的一方。
分析
1,辛普森悖論成立時,通常是忽略了因果關系(causal relation)
;
影響康復率的根本因素是病情嚴重,而不是治療方法;
2,分組后觀察數據更加清晰;
分組后,組之間的規模大小size差距懸殊,這導致各組權重
應該是不同的。
案例中,在輕症患者分類下,方法B雖然處於弱勢,但是弱的程度並不大,且B的規模比方法A大,這導致了方法B綜合比A強;
從數據綜合來看:方法A適用重症,B適用輕症;
數學原理
\[\left\{ \begin{array}{l} \frac {a_1}{b_1}>\frac {a_2}{b_2}\\ \frac {c_1}{d_1}>\frac {c_2}{d_2}\\ \end{array} \right.\not\Rightarrow\frac{a_1+c_1}{b_1+d_1}>\frac{a_2+c_2}{b_2+d_2} \]
圖像表示
B1優於L1且B2優於L2,但是B1+B2弱於L1+L2;
基本比率謬誤
介紹
人群中,患某病的比例是a=1%;即一百人里有1人患病;
做病症試驗反應,真陽性、真陰性的概率均是b=90%;即患者中,陽性概率是0.9;不患病中,陰性概率是0.9(即檢測試劑存在誤差);
現在某人反應為陽性,患病的概率是?
數學原理
\[P(患病|陽性)=\frac{P(患病且陽性)}{P(陽性)}=\frac{P(陽性|患病)*P(患病)}{P(陽性|患病)*P(患病)+P(陽性|非不患病)*P(不患病)}=\frac{ab}{ab+(1-a)(1-b)}=8.3\% \]
因為分母中存在\((1-a)(1-b)\)進行分擔,也就是假陽性概率(1-b)低,但是不患病概率(1-a)非常高,綜合分母也大
;