辛普森悖論理解

本文轉載自查看原文 2019-01-10 01:02 1130 數學相關

辛普森悖論
基本比率謬誤

辛普森悖論

介紹

觀察下面表格：

	Treatment A	Treatment B
Small stones	Group 1 93% (81/87)	Group 2 87% (234/270)
Large stones	Group 3 73% (192/263)	Group 4 69% (55/80)
Both	78% (273/350)	83% (289/350)

分析：

治療方法A在小、大腎結石分類下都比B的康復率高；但是結合在一起觀察，B的康復率比A高；

辛普森悖論：在分組比較中都占優勢的一方，在總評中有時反而是失勢的一方。

分析

1，辛普森悖論成立時，通常是忽略了因果關系(causal relation)；

影響康復率的根本因素是病情嚴重，而不是治療方法；

2，分組后觀察數據更加清晰；

分組后，組之間的規模大小size差距懸殊，這導致各組權重應該是不同的。

案例中，在輕症患者分類下，方法B雖然處於弱勢，但是弱的程度並不大，且B的規模比方法A大，這導致了方法B綜合比A強；

從數據綜合來看：方法A適用重症，B適用輕症；

數學原理

\[\left\{ \begin{array}{l} \frac {a_1}{b_1}>\frac {a_2}{b_2}\\ \frac {c_1}{d_1}>\frac {c_2}{d_2}\\ \end{array} \right.\not\Rightarrow\frac{a_1+c_1}{b_1+d_1}>\frac{a_2+c_2}{b_2+d_2} \]

圖像表示

B1優於L1且B2優於L2，但是B1+B2弱於L1+L2；

基本比率謬誤

介紹

人群中，患某病的比例是a=1%；即一百人里有1人患病；

做病症試驗反應，真陽性、真陰性的概率均是b=90%；即患者中，陽性概率是0.9；不患病中，陰性概率是0.9（即檢測試劑存在誤差）；

現在某人反應為陽性，患病的概率是？

數學原理

\[P(患病|陽性)=\frac{P(患病且陽性)}{P(陽性)}=\frac{P(陽性|患病)*P(患病)}{P(陽性|患病)*P(患病)+P(陽性|非不患病)*P(不患病)}=\frac{ab}{ab+(1-a)(1-b)}=8.3\% \]

因為分母中存在\((1-a)(1-b)\)進行分擔，也就是假陽性概率(1-b)低，但是不患病概率(1-a)非常高，綜合分母也大；

參考

Simpson's paradox-wiki

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 JWT理論理解數據分析一定要避免辛普森悖論主題建模(理論理解) 【因果推斷論文】中國新冠死亡率更高？- 新冠死亡率的辛普森悖論辛普森積分辛普森公式&&自適應辛普森法關於生日悖論問題的驗證辛普森積分法由全能悖論而引發的思考算法問題——生日悖論