描述統計學:表格法和圖形法
-
數據可以分為分類型或數量型
-
分類型數據
- 是用來標記或名稱來識別項目的類型
-
數據量數據
- 是表示多少或大小的數值
-
分類型數據匯總
-
頻數分布:表示在幾個互不重疊的組別中每一組的項目個數,就是出現頻率
- 如何使用表格法和圖形法匯總分類型數據
- 統計后結果
統計結果信息:提供了更多原始數據看不到的內涵,受歡迎程度誰最高,誰最低一目了然
相對頻數分布和百分數頻數分布
-
相對頻數分布
-
一組的相對頻數是屬於該組的項目個數的比例
-
例如:50次購買飲料中可口可樂的相對頻數=19/50
-
-
百分數頻數分布
- 相對頻數*100%
條形圖和餅形圖
- 條形圖:用來描繪已匯總的分類型數據的頻數分布、相對頻數分布或百分數頻數分布(是不是很繞口),別擔心,看圖,官方裝逼詞就非把簡單的東西復雜解釋
總結:條形圖就是需要先匯總原始數據,之后把分類的類型放橫軸,出現的次數放縱軸
-
餅形圖:是另一種描繪分類型數據的相對頻數和百分數頻數分布的圖形方法。
- 匯總,算出相對頻數
- 相對頻數 * 360°
注意:在實際生活中,會有很多的飲料分類,大部分只有很少的購買次數,大多數的統計專家建議把頻數較少的組合合並到一個叫"其他"的綜合組去,頻數為5%或更少的組常常這樣處理
練習
一、
組別 | 相對頻數 | 組別 | 相對頻數 |
---|---|---|---|
A | 0.22 | C | 0.40 |
B | 0.18 | D |
a.組別D的相對頻數是多少?
- 0.2 = 1-0.22-0.18-0.40
b.若樣本容量為200,組別D的頻數是多少?
- x = 200*0.2 = 40
二、
DH | CSI | DH | CSI | L&O |
---|---|---|---|---|
Trace | CSI | L&O | Trace | CSI |
CSI | DH | Trace | CSI | DH |
L&O | L&O | L&O | CSI | DH |
CSI | DH | DH | L&O | CSI |
DH | Trace | CSI | Trace | DH |
DH | CSI | CSI | L&O | CSI |
L&O | CSI | Trace | Trace | DH |
L&O | CSI | CSI | CSI | DH |
CSI | DH | Trace | Trace | L&O |
a.這些數據是分類型還是數量型的?
- 分類型
b.編制這些數據的頻數分布和百分數頻數分布
- 繪制如下
分組 | 頻數 | 頻數分布 | 百分數頻數 |
---|---|---|---|
DH | 13 | 0.26 | 26% |
Trace | 9 | 0.18 | 18% |
CSI | 18 | 0.36 | 36% |
L&O | 10 | 0.10 | 10% |
c.繪制這些數據的條形圖和餅形圖
- 條形圖
- 餅狀圖
d.以樣本為依據,哪個節目擁有最多的電視觀眾?哪個位居第二?
- CIS第一,DH第二
數量型數據匯總
頻數分布
對於數量型數據,在將互不重疊的組用於頻數分布時,我們必須更加小心。
確定頻數分布的分組時,三個必要的步驟是:
(1) 確定互不重疊組的組數
(2) 確定每組的組寬
(3) 確定組限
-
組數
- 組是通過對數據規定范圍而形成的,這個規定的范圍用於對數據進行分組。
- 一般性原則我們建議使用5-20組,如果數據少,只要5-6組就可以匯總數據
- 分組的目的是用足夠多的組來顯示數據的變異性,而不是有這么多的組只包含很少的數據項。
- 圖表2-4的數據項相對較少(n = 20),可以編制5組的頻數分布
-
組寬
- 近似組寬 = (最大數據值-最小數據值) / 組數
- 確定天數為5
-
組限
- 第一組下組限必須包含最小組,最后一組上限必須包含最大值
- 最小確定為10,則10-14,15-19,20-24,25-29和30-34
- 最大數據值33包含在30-34
- 組寬為兩個下組限之差 15-10 = 5
-
組中值
- 下組限和上組限的中間值
相對頻數分布和百分數頻數分布
- 頻數分布的目的是為了揭示自然的分組和數據的變異性
打點圖(dot plot)
是一種最簡單的數據圖形匯總方式。橫軸是數據的范圍,每一個數據值由位於橫軸上的點表示。
打點圖能夠顯示數據的細節,且有利於比較兩個或更多變量的數據分布。
直方圖
直方圖是一種常用的數量型數據的圖形描述方式。
- 由先前已匯總出的頻數分布、相對頻數分布或百分數頻數可繪制直方圖。
- 橫軸放變量,以組寬為底。
- 縱軸放頻數,相對頻數或百分數頻數。
-
適度左偏
-
考試成績是這種直方圖的典型應用。
-
因為沒有成績在100%之上,大多數成績又常常在70%之上,只有極少數的成績很低。
-
-
適度右篇
-
房屋價格的數據可能是這種直方圖的例子。
-
少數昂貴的住宅造成右尾偏斜。
-
-
對稱
-
在應用中的直方圖可能大致對稱,但永遠不會完全對稱。
-
SAT的分數、人的身高和體重等數據的直方圖大致對稱。
-
-
嚴重偏右
-
房屋價格、工資、銷售量等數據,常常導致直方圖右篇。
-
在商務與經濟應用中得到的數據,常常使直方圖右篇。
-
累積分布
- 累積頻數分布:對頻數分布略加變化,可得到數值型數據的另一種表格匯總方式。
- 累積頻數,注意看累積兩個字,累積小於等於某個值,而不是表示每一組的頻數。
-
累積分布表明:
- 有4次審計在14天內完成,有19次審計在29天之內完成。
-
累積相對頻數分布
- 數據值小於或等於每一組上組限的數據項的比例和百分數
-
累積百分數頻數分布
- 標明有95%的審計在29之內完成。
累積曲線
累積分布的圖形表示稱為累積曲線。
-
橫軸表示數據值。
-
縱軸表示累積頻數或累積相對頻數。
-
通過標出對應於每一組累積頻數的點,就可以得到累積曲線。
總結
-
條形圖和直方圖在本質上是同一事物,他們都是頻數分布數據的圖形表示。
- 離散的數量型數據,縱條之間有間隔是合適的,例如:飲料的受歡迎數
- 連續的數量型數據,縱條之間有間隔是不合適的。例如:審計時間這種
-
開口組是指只有一個下組限或上組限的組。
- 例如審計時間有兩個58,65天的值,中間隔了很遠
- 直接以35或35以上來簡化頻數分布,頻數為2
- 開口組經常出現在最上端或最下端,偶爾兩端都有
-
累積頻數分布的最后一個數據項總是等於觀測值的總數。
練習
- 考慮下列數據
a. 利用組12-14,15-17,18-20,21-23和24-26來編制頻數分布。
組數 | 頻數 |
---|---|
12-14 | 2 |
15-17 | 8 |
18-20 | 11 |
21-23 | 10 |
24-26 | 9 |
說明:這個組數為5組,組寬3,最小下組限12,最大上組限26
b. 用(a)中的組編制相對頻數分布和百分數頻數分布
組數 | 相對頻數分布 | 百分數頻數分布 |
---|---|---|
12-14 | 0.05 | 5% |
15-17 | 0.2 | 20% |
18-20 | 0.275 | 27.5% |
21-23 | 0.25 | 25% |
24-26 | 0.225 | 22.5% |
c.編制數據的直方圖和累積曲線
- 直方圖(我用excel做的)
-
累積曲線
- 第一步先算出累積分布的表
組數 累積頻數 累積相對頻數 累積百分數頻數 小於等於14 2 0.05 5% 小於等於17 10 0.25 25% 小於等於20 21 0.525 52.5% 小於等於23 31 0.775 77.5% 小於等於26 40 1 100% -
第二步根據累積分布表選點
-
因為14-15、17-18等中間有一個單位的間隔,通過標出組限間的中點來消除這些間隔。
14.5、17.5、20.5、23.5、26.5 -
這個圖畫的有點費勁,坎坎坷坷不太完美