使用汇总命令的描述性统计
这是一个使用summaryrize命令获取描述性统计信息的示例。 在第一个示例中,我们获得了名为female的0/1(虚拟)变量的描述性统计信息。 如果学生是女性,则此变量编码为1,否则编码为0。 在第二个例子中,我们得到一个名为write的连续变量的描述性统计,这是学生在写作测试中得到的分数。 我们使用详细信息选项来获取其他信息,包括百分位数,偏度和峰度。 您不必对所有连续变量使用detail选项。
use https://stats.idre.ucla.edu/stat/stata/notes/hsb2
(highschool and beyond (200 cases))
summarize female
Variable | Obs Mean Std. Dev. Min Max
-------------+--------------------------------------------------------
female | 200 .545 .4992205 0 1
Variable – 此列展示所描述的变量。可以在 summarize 命令之后列出多个变量; 这样做时,将在输出的各行上看到每个变量。
Obs – 该列告诉您对该变量有效(即没有缺失)的观察值(或案例)的数量。 如果数据集中有200个观察值,但是变量female缺少10个值,那么这一列中的数字将是190。
Mean – 这是变量的平均值。 在这个样例中,我们的变量female的范围从0到1(最小值和最大值),因此均值实际上是编码为1的观测值的比例。
Std. Dev. – 这是变量的标准偏差。 这里给出了关于变量分布的扩展的信息。
summarize write, detail
writing score
-------------------------------------------------------------
Percentiles Smallest
1% 31 31
5% 35.5 31
10% 39 31 Obs 200
25% 45.5 31 Sum of Wgt. 200
50% 54 Mean 52.775
Largest Std. Dev. 9.478586
75% 60 67
90% 65 67 Variance 89.84359
95% 65 67 Skewness -.4784158
99% 67 67 Kurtosis 2.238527
1% – 这是第一百分位数。 百分位数的计算方法是将变量的值从最低到最高排序,然后找出与您感兴趣的百分比相对应的值,在本例中为1% 。 因此,变量write的值的1%小于等于31。
25% –这是第25百分位数,也称为第一四分位数。
50% – 这是第50百分位,也称为中位数。 如果您将变量的值从最低到最高排序,则中位数将是恰好位于中间的值。 换句话说,一半的值将低于中位数,一半将高于中位数。 如果变量具有异常值,则可以很好地衡量集中趋势。
75% – 这是第75百分位数,也称为第三四分位数。
Smallest – 这是一个列表的四个最小值的变量。 在这个例子中,四个最小的值都是31。
Largest – 这是变量的四个最大值的列表。 在这个例子中,四个最大的值都是67。
Obs – 该列告诉您对该变量有效(即没有缺失)的观察值(或案例)的数量。 如果数据集中有200个观察值,但是变量 female 缺少10个值,那么这一列中的数字将是190。
Sum of Wgt. – 这是weights值的和。 在 Stata中,你可以在你的数据上使用不同的权重。 默认情况下,每个案例(即,主题)的权重为1。 当使用这个默认值时,权重之和将等于观察值的数量。
Mean –这是整个观测值的算术平均值。 它是最广泛使用的集中趋势测度。 它通常被称为平均值。 平均值对极大或极小的值都很敏感。
Std. Dev. – 这是变量的标准差。 这给出了关于变量分布情况的信息。
Variance –这是标准差的平方(即,提高到二次方)。 它也是分布扩散的一个尺度。
Skewness – 偏斜度测量不对称的程度和方向。 对称分布,如正态分布,偏态为0,而向左倾斜的分布,例如,当平均值小于中位数时,偏态为负。
Kurtosis – 峰度是一个分布的尾部重量的度量。 正态分布的峰度为3。 重尾分布的峰度大于3,轻尾分布的峰度小于3。