1、联合概率,边际概率,条件概率的概念:
联合概率:个体落入第(i,j)个格子的概率
边际概率:行/列联合概率之和
条件概率:在给定解释变量取值的情况下,结果变量的概率分布
某离散分布:
2、联合概率、边际概率、条件概率的关系:
其中,
Pr(X=x, Y=y)为“XY的联合概率”;
Pr(X=x)为“X的边际概率”;
Pr(X=x | Y=y)为“X基于Y的条件概率”;
Pr(Y=y)为“Y的边际概率”;
从上式子中可以看到:
Pr(X=x, Y=y) = Pr(X=x | Y=y) * Pr(Y=y)
即:“XY的联合概率”=“X基于Y的条件概率”乘以“Y的边际概率”
这个就是联合概率、边际概率、条件概率之间的转换计算公式。
前面表述的是离散分布,对于连续分布,也差不多。
只需要将“累加”换成“积分”。
3、列联表中的统计独立
1)当行变量是解释变量,列变量是结果变量时,两者独立,意味着:
①解释变量不同水平下的结果变量的条件概率应该相等
②结果变量的每一个条件分布与它的边际分布相同
③因此,这种情况又叫“同质分布”Homogeneous Distribution
如,在上图中,如吃不吃维生素C与是否感冒两者独立时,有A = B = C, D = E = F,其中A B C D E F均为概率。
2)当行变量和列变量都是结果变量时,两者独立意味着:XY的联合概率等于X和Y的边际概率的乘积
4、列联表分析中的独立性检验步骤--卡方检验
https://blog.csdn.net/u013164612/article/details/80715769
转自:https://blog.csdn.net/libing_zeng/article/details/74625849