使用匯總命令的描述性統計
這是一個使用summaryrize命令獲取描述性統計信息的示例。 在第一個示例中,我們獲得了名為female的0/1(虛擬)變量的描述性統計信息。 如果學生是女性,則此變量編碼為1,否則編碼為0。 在第二個例子中,我們得到一個名為write的連續變量的描述性統計,這是學生在寫作測試中得到的分數。 我們使用詳細信息選項來獲取其他信息,包括百分位數,偏度和峰度。 您不必對所有連續變量使用detail選項。
use https://stats.idre.ucla.edu/stat/stata/notes/hsb2
(highschool and beyond (200 cases))
summarize female
Variable | Obs Mean Std. Dev. Min Max
-------------+--------------------------------------------------------
female | 200 .545 .4992205 0 1
Variable – 此列展示所描述的變量。可以在 summarize 命令之后列出多個變量; 這樣做時,將在輸出的各行上看到每個變量。
Obs – 該列告訴您對該變量有效(即沒有缺失)的觀察值(或案例)的數量。 如果數據集中有200個觀察值,但是變量female缺少10個值,那么這一列中的數字將是190。
Mean – 這是變量的平均值。 在這個樣例中,我們的變量female的范圍從0到1(最小值和最大值),因此均值實際上是編碼為1的觀測值的比例。
Std. Dev. – 這是變量的標准偏差。 這里給出了關於變量分布的擴展的信息。
summarize write, detail
writing score
-------------------------------------------------------------
Percentiles Smallest
1% 31 31
5% 35.5 31
10% 39 31 Obs 200
25% 45.5 31 Sum of Wgt. 200
50% 54 Mean 52.775
Largest Std. Dev. 9.478586
75% 60 67
90% 65 67 Variance 89.84359
95% 65 67 Skewness -.4784158
99% 67 67 Kurtosis 2.238527
1% – 這是第一百分位數。 百分位數的計算方法是將變量的值從最低到最高排序,然后找出與您感興趣的百分比相對應的值,在本例中為1% 。 因此,變量write的值的1%小於等於31。
25% –這是第25百分位數,也稱為第一四分位數。
50% – 這是第50百分位,也稱為中位數。 如果您將變量的值從最低到最高排序,則中位數將是恰好位於中間的值。 換句話說,一半的值將低於中位數,一半將高於中位數。 如果變量具有異常值,則可以很好地衡量集中趨勢。
75% – 這是第75百分位數,也稱為第三四分位數。
Smallest – 這是一個列表的四個最小值的變量。 在這個例子中,四個最小的值都是31。
Largest – 這是變量的四個最大值的列表。 在這個例子中,四個最大的值都是67。
Obs – 該列告訴您對該變量有效(即沒有缺失)的觀察值(或案例)的數量。 如果數據集中有200個觀察值,但是變量 female 缺少10個值,那么這一列中的數字將是190。
Sum of Wgt. – 這是weights值的和。 在 Stata中,你可以在你的數據上使用不同的權重。 默認情況下,每個案例(即,主題)的權重為1。 當使用這個默認值時,權重之和將等於觀察值的數量。
Mean –這是整個觀測值的算術平均值。 它是最廣泛使用的集中趨勢測度。 它通常被稱為平均值。 平均值對極大或極小的值都很敏感。
Std. Dev. – 這是變量的標准差。 這給出了關於變量分布情況的信息。
Variance –這是標准差的平方(即,提高到二次方)。 它也是分布擴散的一個尺度。
Skewness – 偏斜度測量不對稱的程度和方向。 對稱分布,如正態分布,偏態為0,而向左傾斜的分布,例如,當平均值小於中位數時,偏態為負。
Kurtosis – 峰度是一個分布的尾部重量的度量。 正態分布的峰度為3。 重尾分布的峰度大於3,輕尾分布的峰度小於3。