- 常见分布
- 正态分布:
- 标准正态分布:
- 对数正态分布:
- 均匀分布:
- 指数分布:
- 伽玛分布:
,其中
分布:
- 设
是来自正态总体
的一个样本,则
- 若
是来自标准正态分布的一样样本,则其平方和
服从自由度为n的
分布。
- 贝塔分布:
- t分布:
,t分布是正态总体的一个样本
的样本均值与样本标准差的特定函数
。当自由度较大(如
)时,t分布可以用标准正态分布近似。
- F分布:设随机变量
,且两者独立,则
的密度函数为
,此分布为自由度为n与m的F分布,记为
。
为自由度为n与m的F分布p分位数,有
-
分布特征数
- 特征数定义
分布的特征数刻画分布的位置、散布、偏度、峰度。其中偏度与峰度都是描述分布形状的特征数,他们都是以正态分布为基准。
- 数学期望:
。
- 方差:称
为偏差,则偏差平方的数学期望
为随机变量X(或相应分布)的方差,记为
。
- 标准差:方差的平方根称为随机变量X(或相应分布)的标准差,记为
或
。
-
变异系数:标准差与数学期望的比值,即
,变异系数是无单位的量。
-
偏度系数:
,偏度系数是描述分布偏离对称性程度的一个特征数。
称分布为正偏或右偏,
称分布为负偏或左偏,
分布关于
是对称的。
-
峰度系数:
,峰度是描述分布尖峭程度和尾部粗细的一个特征数,是相对与正态分布而言的超出量。
- 常见分布的特征数
分布 |
均值 |
方差 |
偏度 |
峰度 |
均匀分布 |
0 |
-1.2 |
||
正态分布 |
0 |
0 |
||
指数分布 |
2 |
6 |
||
伽玛分布 |
- 假设检验
根据所获样本,运用统计分析方法对总体X的某种假设做出判断,具体包含建立假设,寻找检验统计量,构造拒绝域,直到最后做出判断四个步骤。
- 建立假设
一般假设检验问题需要建设两个假设:原假设与备择假设。假设全网客户Arpu服从正态分布,需要检测全网客户平均Arpu是否为40,则可建立以下两个假设:
原假设
备择假设 (双侧检验问题)
某些情况下,Arpu允许过高不得过低或允许过低不得过高,则可建立以下两对假设:
原假设
备择假设 (单侧检验问题)
原假设
备择假设 (单侧检验问题)
- 选择检验统计量
为样本的Arpu均值,那么在原假设为真的情况下,经标准化变化可得
这里的u就是检验统计量,分子的绝对值是样本均值与总体均值之间的距离,其大小表征系统误差大小,分母是随机误差大小,两者比值表征系统误差是随机误差的倍数。可见若u的绝对值越大,系统误差越大,这是应倾向于拒绝;相反则倾向于不拒绝
。即是寻找临界值c,使得:
当,拒绝
;
当,不拒绝
。
则称为该双侧检验问题的拒绝域,记为W。临界值c的确定将用控制犯错误概率确定。
- 根据显著性水平
,确定临界值
在假设检验中可能犯的错误有如下两类:
第I类错误(拒真):原假设为真,由于抽样随机性,样本落在拒绝域,从而导致拒绝原假设,其发生概率记为,又称为显著性水平。
第Ⅱ类错误(取伪):原假设不真,单由于抽样随机性,样本未落在拒绝域,从而导致接受原假设,其发生概率为。
由此可见,=P(犯第I类错误)=P(
为真时拒绝
)。
这个概率是成立下,计算拒绝域
的概率,此时
,则:
,其中
为标准正态分布函数,由上式知,
是c的严减函数,即
越小,拒绝域越小。
一般理论研究表明:随着的减小,
在增加;随着样本量的增加,
与
在减小。
- P值判断
一个假设检验问题中不同的显著性水平会导致不同的结论,而显著性水平的选择又带有人为因素,因此提出"p值"的概念,即:在一个假设检验问题中,拒绝原假设的最小显著性水平称为p值。
若值,则拒绝原假设;若
值,则接受原假设。
-
卡方拟合优度检验(
检验)
- 定义
检验需要将总体分类为有限类,检验结论依赖于分组,不同分组有可能得出不同的结论,故在
检验在连续分布场合有一定的不足之处。
将总体分为有限类(分组经验公式,n为样本量),每类中的观察频数为
,根据原假设每类中的期望频数为
,则
为
检验的检验统计量。当n充分大时,
近似服从自由度为
的
分布,其中
为分类组数,
为假设分布的未知参数个数。对于显著性水平
,拒绝域为
。
每类中的期望频数不应过小,建议取
。
- 列联表的独立性检验
检验可应用于检验两个分类随机变量之间的独立性。
X |
行和 |
|||||
… |
||||||
Y |
… |
|||||
… |
||||||
… |
… |
… |
… |
… |
||
… |
||||||
列和 |
… |
n |
X与Y独立时,对一切的i和j有,因此假设检验为:
原假设
备择假设 至少有一对i,j,使得
,其拒绝域为
,其中
,这里仍然要求
。