stata:使用匯總命令的描述性統計


使用匯總命令的描述性統計

這是一個使用summaryrize命令獲取描述性統計信息的示例。 在第一個示例中,我們獲得了名為female的0/1(虛擬)變量的描述性統計信息。 如果學生是女性,則此變量編碼為1,否則編碼為0。 在第二個例子中,我們得到一個名為write的連續變量的描述性統計,這是學生在寫作測試中得到的分數。 我們使用詳細信息選項來獲取其他信息,包括百分位數,偏度和峰度。 您不必對所有連續變量使用detail選項。

use https://stats.idre.ucla.edu/stat/stata/notes/hsb2
(highschool and beyond (200 cases))
summarize female
    Variable |      Obs        Mean    Std. Dev.         Min       Max 
-------------+--------------------------------------------------------
      female |       200        .545    .4992205          0          1

Variable – 此列展示所描述的變量。可以在 summarize 命令之后列出多個變量; 這樣做時,將在輸出的各行上看到每個變量。

Obs – 該列告訴您對該變量有效(即沒有缺失)的觀察值(或案例)的數量。 如果數據集中有200個觀察值,但是變量female缺少10個值,那么這一列中的數字將是190。

Mean – 這是變量的平均值。 在這個樣例中,我們的變量female的范圍從0到1(最小值和最大值),因此均值實際上是編碼為1的觀測值的比例。

Std. Dev. – 這是變量的標准偏差。 這里給出了關於變量分布的擴展的信息。

summarize write, detail
                        writing score
-------------------------------------------------------------
      Percentiles      Smallest
 1%           31             31
 5%         35.5             31
10%           39             31       Obs                 200
25%         45.5             31       Sum of Wgt.         200

50%           54                      Mean             52.775
                        Largest       Std. Dev.      9.478586
75%           60             67
90%           65             67       Variance       89.84359
95%           65             67       Skewness      -.4784158
99%           67             67       Kurtosis       2.238527

1% – 這是第一百分位數。 百分位數的計算方法是將變量的值從最低到最高排序,然后找出與您感興趣的百分比相對應的值,在本例中為1% 。 因此,變量write的值的1%小於等於31。

25% –這是第25百分位數,也稱為第一四分位數。

50% – 這是第50百分位,也稱為中位數。 如果您將變量的值從最低到最高排序,則中位數將是恰好位於中間的值。 換句話說,一半的值將低於中位數,一半將高於中位數。 如果變量具有異常值,則可以很好地衡量集中趨勢。

75% – 這是第75百分位數,也稱為第三四分位數。

Smallest – 這是一個列表的四個最小值的變量。 在這個例子中,四個最小的值都是31。

Largest – 這是變量的四個最大值的列表。 在這個例子中,四個最大的值都是67。

Obs – 該列告訴您對該變量有效(即沒有缺失)的觀察值(或案例)的數量。 如果數據集中有200個觀察值,但是變量 female 缺少10個值,那么這一列中的數字將是190。

Sum of Wgt. – 這是weights值的和。 在 Stata中,你可以在你的數據上使用不同的權重。 默認情況下,每個案例(即,主題)的權重為1。 當使用這個默認值時,權重之和將等於觀察值的數量。

Mean –這是整個觀測值的算術平均值。 它是最廣泛使用的集中趨勢測度。 它通常被稱為平均值。 平均值對極大或極小的值都很敏感。

Std. Dev. – 這是變量的標准差。 這給出了關於變量分布情況的信息。

Variance –這是標准差的平方(即,提高到二次方)。 它也是分布擴散的一個尺度。

Skewness – 偏斜度測量不對稱的程度和方向。 對稱分布,如正態分布,偏態為0,而向左傾斜的分布,例如,當平均值小於中位數時,偏態為負。

Kurtosis – 峰度是一個分布的尾部重量的度量。 正態分布的峰度為3。 重尾分布的峰度大於3,輕尾分布的峰度小於3。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM