图表可以把样本中的数据用图形表达出来,很直观形象,但是,缺点有很大,例如,直方图的图像依赖分组,不同的分组,导致不一样的图像。
因此,除统计图表外,对样本进行整理加工的另一种有效方法是构造样本函数
它可以把分散在样本中的总体信息按人们的需要(某种统计思想)集中在一个函数上,使该函数值能反映总体某方面的信息。这样的样本函数在统计学中称为 统计量。
统计量定义
不含任何未知参数的样本函数称为统计量。
样本\((X_1,X_2,…,X_n)\)是 n 维随机变量,因此,作为样本函数的统计量,也是随机变量。
这里“不含任何未知参数”是要求样本函数中除样本外不含任何知成分。
例如:
样本中各数据的算术平均数称为样本均值,记为:
样本方差,记为:
样本标准差,记为:
这是较为简单的样本函数,又不含未知参数,故是统计量。
因为简单,故使用较为频繁。但其统计思想较为深刻,因为平均可以消除很多随机干扰。
譬如,某市无人售票的公共汽车实行单一票价:2元/人次。几年来,乘客与公交公司都很满意,都认为“公平”。这里的公平只是平均来说才存在的,并不是存在于每次乘车。因此单一票价是依据以往多级票价的样本均值而作出的。
又如降压药的疗效是根据一组高血压病人服用此种降压药后(如一周后)平均降压多少而确定的,不是仅看一两个人降压多少而定的。因为人群中个体间的差异很大,且这种差异带有随机性,时大时小,时正时负,以不可测的随机方式呈现在我们面前,所以从个体去认识总体常会出现偏差。从样本认识总体可减少此种偏差,如样本均值可以抵消大部分偏差,出现较为稳定的值,参与平均的个体越多,平均数的稳定性越好。药检部门就是根据平均疗效来核准某种药物是否可以上市出售的。
有段时间减肥药的广告很多。“××明星吃了我们的减肥药,十天体重减了3公斤”,“×××老干部吃了我们的减肥药,一个月减少10公斤体重”,“快来买吧,立即打电话,价格还可优惠”……你相信这些广告吗?由于制造商拿不出有说服力的样本均值(100位肥胖的人服用了你的减肥药,一个月内平均可减少体重多少公斤),而企求名人效应来推销它的减肥药,只能用极其罕见的个体数据来做广告,欺骗缺乏平均数等统计知识的人群。在这个充满随机现象的现实世界里,平均数比个体数据更具说服力。
估计量
在对总体分布作出假定的情况下,从样本对总体的某些特征作出一些推理,称为统计推断。
费希尔(R.A.Fisher,1890—1962)把统计推断归为如下三大类:
- 抽样分布〈精确的与近似的);
- 参数估计(点估计与区间估计);
- 假设检验(参数检验与非参数检验)。
缺少统计量,上面这三个统计推断就很难进行
定义:
用于估计未知参数的统计量称为 点估计(量),或简称为 估计(量)。
参数 \(\theta\) 的估计量常用 \(\widehat{\theta} = \widehat{\theta} (x_1,x_2,...x_n)\)表示,参数 \(\theta\) 的可能取值范围称为参数空间,记为 \(\Theta =\left \{ {\theta } \right \}\)
这里的参数包括:分布中含有的未知参数;分布中的期望、方差、标准差、分位数等特征数;某件事的概率等。
评价估计量的优劣
一个参数的估计量常不止一个。常用的评价标准有多个,如无偏性、有效性、均方误差最小与相合性
无偏性
设\(\widehat{\theta} = \widehat{\theta} (x_1,x_2,...x_n)\)是参数 \(\theta\) 的一个估计,若对于参数空间 \(\Theta =\left \{ {\theta } \right \}\) 中的任一个\(\theta\) 都有
则称\(\widehat{\theta}\)为\(\theta\)的无偏估计,否则称为\(\theta\)的有偏估计。
当估计\(\widehat{\theta}\)随着样本量 n 的增加而逐渐趋于其真值\(\theta\),这时若记\(\widehat{\theta}\)=\(\widehat{\theta}_n\),则有
则称\(\widehat{\theta}_n\)为\(\theta\) 的渐近无偏估计。
当我们使用无偏估计 \(\hat{\theta }\) 去估计 \({\theta}\) 时,每次的实现值 \(\hat{\theta }\) 对 \({\theta}\) 的偏差\(\hat{\theta }-{\theta}\)总是存在的。
由于样本的随机性,这种偏差时大时小,时正时负,而把这些偏差平均起来其值为0,这就是无偏估计自的含义。所以无偏是指无系统偏差。
若一个估计不具有无偏性,估计均值 \(E\left ( \hat{\theta } \right )\) 与参数真值 \(\theta\) 总有一定距离,这个距离就是系统偏差。这就是有偏估计的缺点。
渐近无偏估计是指系统偏差会随着样本量 n 的增加而逐渐减小,最后趋于 \(\theta\) ,所以在大样本场合此种有偏估计 \(\hat{\theta }_n\) ,可以近似当作无偏估计使用。
参考:
[1]数理统计学(2版)/茆诗松等编著.北京:中国人民大学出版社,2016.1