统计量与估计量



返回 我的研究方向(Research Interests)



图表可以把样本中的数据用图形表达出来,很直观形象,但是,缺点有很大,例如,直方图的图像依赖分组,不同的分组,导致不一样的图像。
因此,除统计图表外,对样本进行整理加工的另一种有效方法是构造样本函数

\[T=T(x_1 ,x_2, ..., x_n) \]

它可以把分散在样本中的总体信息按人们的需要(某种统计思想)集中在一个函数上,使该函数值能反映总体某方面的信息。这样的样本函数在统计学中称为 统计量。

统计量定义

不含任何未知参数的样本函数称为统计量。

样本\((X_1,X_2,…,X_n)\)是 n 维随机变量,因此,作为样本函数的统计量,也是随机变量。
这里“不含任何未知参数”是要求样本函数中除样本外不含任何知成分。

例如:
样本中各数据的算术平均数称为样本均值,记为:

\[\bar{x}=\frac{1}{n}\sum_{i=1}^{n}x_i \]

样本方差,记为:

\[S^2 = \frac{1}{n-1}\sum_{i=1}^{n}(x_i-\bar{x} )^2 \]

样本标准差,记为:

\[S = \sqrt{S^2 } \]

这是较为简单的样本函数,又不含未知参数,故是统计量。

因为简单,故使用较为频繁。但其统计思想较为深刻,因为平均可以消除很多随机干扰。

譬如,某市无人售票的公共汽车实行单一票价:2元/人次。几年来,乘客与公交公司都很满意,都认为“公平”。这里的公平只是平均来说才存在的,并不是存在于每次乘车。因此单一票价是依据以往多级票价的样本均值而作出的。

又如降压药的疗效是根据一组高血压病人服用此种降压药后(如一周后)平均降压多少而确定的,不是仅看一两个人降压多少而定的。因为人群中个体间的差异很大,且这种差异带有随机性,时大时小,时正时负,以不可测的随机方式呈现在我们面前,所以从个体去认识总体常会出现偏差。从样本认识总体可减少此种偏差,如样本均值可以抵消大部分偏差,出现较为稳定的值,参与平均的个体越多,平均数的稳定性越好。药检部门就是根据平均疗效来核准某种药物是否可以上市出售的。
有段时间减肥药的广告很多。“××明星吃了我们的减肥药,十天体重减了3公斤”,“×××老干部吃了我们的减肥药,一个月减少10公斤体重”,“快来买吧,立即打电话,价格还可优惠”……你相信这些广告吗?由于制造商拿不出有说服力的样本均值(100位肥胖的人服用了你的减肥药,一个月内平均可减少体重多少公斤),而企求名人效应来推销它的减肥药,只能用极其罕见的个体数据来做广告,欺骗缺乏平均数等统计知识的人群。在这个充满随机现象的现实世界里,平均数比个体数据更具说服力。


估计量

在对总体分布作出假定的情况下,从样本对总体的某些特征作出一些推理,称为统计推断

费希尔(R.A.Fisher,1890—1962)把统计推断归为如下三大类:

  • 抽样分布〈精确的与近似的);
  • 参数估计(点估计与区间估计);
  • 假设检验(参数检验与非参数检验)。
    缺少统计量,上面这三个统计推断就很难进行

定义:
用于估计未知参数的统计量称为 点估计(量),或简称为 估计(量)
参数 \(\theta\) 的估计量常用 \(\widehat{\theta} = \widehat{\theta} (x_1,x_2,...x_n)\)表示,参数 \(\theta\) 的可能取值范围称为参数空间,记为 \(\Theta =\left \{ {\theta } \right \}\)

这里的参数包括:分布中含有的未知参数;分布中的期望、方差、标准差、分位数等特征数;某件事的概率等。

评价估计量的优劣

一个参数的估计量常不止一个。常用的评价标准有多个,如无偏性、有效性、均方误差最小与相合性

无偏性

\(\widehat{\theta} = \widehat{\theta} (x_1,x_2,...x_n)\)是参数 \(\theta\) 的一个估计,若对于参数空间 \(\Theta =\left \{ {\theta } \right \}\) 中的任一个\(\theta\) 都有

\[E\left ( \hat{\theta } \right ) = \theta 或 E\left ( \hat{\theta } -\theta \right ) = 0 , \forall \theta \in \Theta \]

则称\(\widehat{\theta}\)\(\theta\)无偏估计,否则称为\(\theta\)有偏估计
当估计\(\widehat{\theta}\)随着样本量 n 的增加而逐渐趋于其真值\(\theta\),这时若记\(\widehat{\theta}\)=\(\widehat{\theta}_n\),则有

\[\lim_{n \to \infty} \left ( \hat{\theta}_n \right ) =\theta , \forall \in \Theta \]

则称\(\widehat{\theta}_n\)\(\theta\)渐近无偏估计

当我们使用无偏估计 \(\hat{\theta }\) 去估计 \({\theta}\) 时,每次的实现值 \(\hat{\theta }\)\({\theta}\) 的偏差\(\hat{\theta }-{\theta}\)总是存在的。
由于样本的随机性,这种偏差时大时小,时正时负,而把这些偏差平均起来其值为0,这就是无偏估计自的含义。所以无偏是指无系统偏差
image
若一个估计不具有无偏性,估计均值 \(E\left ( \hat{\theta } \right )\) 与参数真值 \(\theta\) 总有一定距离,这个距离就是系统偏差。这就是有偏估计的缺点。
image

渐近无偏估计是指系统偏差会随着样本量 n 的增加而逐渐减小,最后趋于 \(\theta\) ,所以在大样本场合此种有偏估计 \(\hat{\theta }_n\) ,可以近似当作无偏估计使用。



参考:

[1]数理统计学(2版)/茆诗松等编著.北京:中国人民大学出版社,2016.1



免责声明!

本站转载的文章为个人学习借鉴使用,本站对版权不负任何法律责任。如果侵犯了您的隐私权益,请联系本站邮箱yoyou2525@163.com删除。



 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM