使用汇总命令的描述性统计

这是一个使用summaryrize命令获取描述性统计信息的示例。在第一个示例中，我们获得了名为female的0/1（虚拟）变量的描述性统计信息。如果学生是女性，则此变量编码为1，否则编码为0。在第二个例子中，我们得到一个名为write的连续变量的描述性统计，这是学生在写作测试中得到的分数。我们使用详细信息选项来获取其他信息，包括百分位数，偏度和峰度。您不必对所有连续变量使用detail选项。

use https://stats.idre.ucla.edu/stat/stata/notes/hsb2
(highschool and beyond (200 cases))
summarize female
    Variable |      Obs        Mean    Std. Dev.         Min       Max 
-------------+--------------------------------------------------------
      female |       200        .545    .4992205          0          1

Variable – 此列展示所描述的变量。可以在 summarize 命令之后列出多个变量; 这样做时，将在输出的各行上看到每个变量。

Obs – 该列告诉您对该变量有效(即没有缺失)的观察值(或案例)的数量。如果数据集中有200个观察值，但是变量female缺少10个值，那么这一列中的数字将是190。

Mean – 这是变量的平均值。在这个样例中，我们的变量female的范围从0到1（最小值和最大值），因此均值实际上是编码为1的观测值的比例。

Std. Dev. – 这是变量的标准偏差。这里给出了关于变量分布的扩展的信息。

summarize write, detail
                        writing score
-------------------------------------------------------------
      Percentiles      Smallest
 1%           31             31
 5%         35.5             31
10%           39             31       Obs                 200
25%         45.5             31       Sum of Wgt.         200

50%           54                      Mean             52.775
                        Largest       Std. Dev.      9.478586
75%           60             67
90%           65             67       Variance       89.84359
95%           65             67       Skewness      -.4784158
99%           67             67       Kurtosis       2.238527

1% – 这是第一百分位数。百分位数的计算方法是将变量的值从最低到最高排序，然后找出与您感兴趣的百分比相对应的值，在本例中为1% 。因此，变量write的值的1%小于等于31。

25% –这是第25百分位数，也称为第一四分位数。

50% – 这是第50百分位，也称为中位数。如果您将变量的值从最低到最高排序，则中位数将是恰好位于中间的值。换句话说，一半的值将低于中位数，一半将高于中位数。如果变量具有异常值，则可以很好地衡量集中趋势。

75% – 这是第75百分位数，也称为第三四分位数。

Smallest – 这是一个列表的四个最小值的变量。在这个例子中，四个最小的值都是31。

Largest – 这是变量的四个最大值的列表。在这个例子中，四个最大的值都是67。

Obs – 该列告诉您对该变量有效(即没有缺失)的观察值(或案例)的数量。如果数据集中有200个观察值，但是变量 female 缺少10个值，那么这一列中的数字将是190。

Sum of Wgt. – 这是weights值的和。在 Stata中，你可以在你的数据上使用不同的权重。默认情况下，每个案例(即，主题)的权重为1。当使用这个默认值时，权重之和将等于观察值的数量。

Mean –这是整个观测值的算术平均值。它是最广泛使用的集中趋势测度。它通常被称为平均值。平均值对极大或极小的值都很敏感。

Std. Dev. – 这是变量的标准差。这给出了关于变量分布情况的信息。

Variance –这是标准差的平方(即，提高到二次方)。它也是分布扩散的一个尺度。

Skewness – 偏斜度测量不对称的程度和方向。对称分布，如正态分布，偏态为0，而向左倾斜的分布，例如，当平均值小于中位数时，偏态为负。

Kurtosis – 峰度是一个分布的尾部重量的度量。正态分布的峰度为3。重尾分布的峰度大于3，轻尾分布的峰度小于3。

免责声明！

本站转载的文章为个人学习借鉴使用，本站对版权不负任何法律责任。如果侵犯了您的隐私权益，请联系本站邮箱yoyou2525@163.com删除。

猜您在找 Stata—描述性统计 stata学习笔记（五）：描述性统计分析描述性统计使用Python进行描述性统计描述性统计描述性统计使用Python进行描述性统计使用Python进行描述性统计 Python描述性统计统计学之描述性统计