stata:使用汇总命令的描述性统计


使用汇总命令的描述性统计

这是一个使用summaryrize命令获取描述性统计信息的示例。 在第一个示例中,我们获得了名为female的0/1(虚拟)变量的描述性统计信息。 如果学生是女性,则此变量编码为1,否则编码为0。 在第二个例子中,我们得到一个名为write的连续变量的描述性统计,这是学生在写作测试中得到的分数。 我们使用详细信息选项来获取其他信息,包括百分位数,偏度和峰度。 您不必对所有连续变量使用detail选项。

use https://stats.idre.ucla.edu/stat/stata/notes/hsb2
(highschool and beyond (200 cases))
summarize female
    Variable |      Obs        Mean    Std. Dev.         Min       Max 
-------------+--------------------------------------------------------
      female |       200        .545    .4992205          0          1

Variable – 此列展示所描述的变量。可以在 summarize 命令之后列出多个变量; 这样做时,将在输出的各行上看到每个变量。

Obs – 该列告诉您对该变量有效(即没有缺失)的观察值(或案例)的数量。 如果数据集中有200个观察值,但是变量female缺少10个值,那么这一列中的数字将是190。

Mean – 这是变量的平均值。 在这个样例中,我们的变量female的范围从0到1(最小值和最大值),因此均值实际上是编码为1的观测值的比例。

Std. Dev. – 这是变量的标准偏差。 这里给出了关于变量分布的扩展的信息。

summarize write, detail
                        writing score
-------------------------------------------------------------
      Percentiles      Smallest
 1%           31             31
 5%         35.5             31
10%           39             31       Obs                 200
25%         45.5             31       Sum of Wgt.         200

50%           54                      Mean             52.775
                        Largest       Std. Dev.      9.478586
75%           60             67
90%           65             67       Variance       89.84359
95%           65             67       Skewness      -.4784158
99%           67             67       Kurtosis       2.238527

1% – 这是第一百分位数。 百分位数的计算方法是将变量的值从最低到最高排序,然后找出与您感兴趣的百分比相对应的值,在本例中为1% 。 因此,变量write的值的1%小于等于31。

25% –这是第25百分位数,也称为第一四分位数。

50% – 这是第50百分位,也称为中位数。 如果您将变量的值从最低到最高排序,则中位数将是恰好位于中间的值。 换句话说,一半的值将低于中位数,一半将高于中位数。 如果变量具有异常值,则可以很好地衡量集中趋势。

75% – 这是第75百分位数,也称为第三四分位数。

Smallest – 这是一个列表的四个最小值的变量。 在这个例子中,四个最小的值都是31。

Largest – 这是变量的四个最大值的列表。 在这个例子中,四个最大的值都是67。

Obs – 该列告诉您对该变量有效(即没有缺失)的观察值(或案例)的数量。 如果数据集中有200个观察值,但是变量 female 缺少10个值,那么这一列中的数字将是190。

Sum of Wgt. – 这是weights值的和。 在 Stata中,你可以在你的数据上使用不同的权重。 默认情况下,每个案例(即,主题)的权重为1。 当使用这个默认值时,权重之和将等于观察值的数量。

Mean –这是整个观测值的算术平均值。 它是最广泛使用的集中趋势测度。 它通常被称为平均值。 平均值对极大或极小的值都很敏感。

Std. Dev. – 这是变量的标准差。 这给出了关于变量分布情况的信息。

Variance –这是标准差的平方(即,提高到二次方)。 它也是分布扩散的一个尺度。

Skewness – 偏斜度测量不对称的程度和方向。 对称分布,如正态分布,偏态为0,而向左倾斜的分布,例如,当平均值小于中位数时,偏态为负。

Kurtosis – 峰度是一个分布的尾部重量的度量。 正态分布的峰度为3。 重尾分布的峰度大于3,轻尾分布的峰度小于3。


免责声明!

本站转载的文章为个人学习借鉴使用,本站对版权不负任何法律责任。如果侵犯了您的隐私权益,请联系本站邮箱yoyou2525@163.com删除。



 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM