1.2 统计量
1.2.1 统计量定义
统计量,由样本数据算出来的量,把样本中与所要解决的问题有关的信息集中起来。定义如下:
定义 1.2.1 统计量
由样本算出来的量称为统计量。准确地说,统计量是样本的函数。
此外要做两点说明:
-
统计量只与样本有关,不能与未知参数有关。例如,\(X \sim N(a,sigma^2)\),\(X_1,\cdots,X_n\) 是总体 \(X\) 中抽取的简单随机样本(独立同分布)。则 \(\sum_{i=1}^n X_i\) 是统计量,但当 \(a\) 和 \(\sigma\) 为未知参数时,\(\sum_{i=1}^n (X_i - a)\) 和 \(\sum_{i=1}^n X_i^2 / \sigma^2\) 都不是统计量。
-
样本具有两重性:抽样前视为随机变量(或向量),抽样后视为具体的数。统计量是样本的函数,因此统计量也具有两重性。
1.2.2 常用统计量
(1) 样本均值
设 \(X_1,\cdots,X_n\) 是从总体 \(X\) 中抽取的样本,样本均值定义为
样本均值反映了总体均值的信息。
(2) 样本方差
设 \(X_1,\cdots,X_n\) 是从总体 \(X\) 中抽取的样本,样本方差定义为
样本均值反映了总体方差的信息。同时将 \(S\) 称为样本标准差,它反映了总体标准差的信息。有时也用下式作为样本方差的定义。
样本均值和样本方差是两个最常用的统计量,它们具有如下三个性质:
-
\(\sum_{i=1}^n (X_i - \overline{X}) = 0\)。
-
设非零数 \(a\) 和 \(b\) 为常数,做变换 \(Y_i = a X_i + b,i=1,2,\cdots,n\),则 \(Y_1,\cdots,Y_n\) 的样本均值 \(\overline{Y} = a \overline{X}\),样本方差 \(S_{Y}^2 = a^2 S_X^2\)。
-
对于任意常数 \(c\),有
上式等号当且仅当 \(c = \overline{X}\) 时成立。这个性质表明,在偏差平方和最小的准则下,用总体均值 \(a\) 的 \(n\) 次测量值的算术平均值估计 \(a\) 是最好的。
(3) 样本矩
设 \(X_1,\cdots,X_n\) 为从总体 \(X\) 中抽取的样本,称下式为样本 \(k\) 阶原点矩。
特别当 \(k=1\) 时,\(a_{n,1} = \overline{X}\),即样本均值,称下式为样本 \(k\) 阶中心矩。
特别当 \(k=2\) 时,\(m_{n,2} = (n-1) S^2 / n\)。
样本的原点矩和中心距统称为样本矩。
(4) 二维随机向量的样本矩
设 \((X_1,Y_1),\cdots,(X_n,Y_n)\) 为从二维总体 \(F(x,y)\) 中抽取的样本。
分别将上式称为 \(X\) 和 \(Y\) 的样本均值、样本方差以及 \(X\) 和 \(Y\) 的样本协方差。
(5) 次序统计量及其相关统计量
设 \(X_1,\cdots,X_n\) 为从总体 \(X\) 中抽取的样本,将其按大小排列为 \(X_{(1)} \leqslant X_{(2)} \leqslant \cdots \leqslant X_{(n)}\),则将 \((X_{(1)}, \cdots, X_{(n)})\) 称为样本 \((X_1, \cdots, X_n)\) 的次序统计量,其中任意一部分也称为次序统计量。
利用次序统计量定义下列统计量:
(5.1) 样本中位数
将下式称为样本中位数。