描述統計學:表格法和圖形法


描述統計學:表格法和圖形法

  • 數據可以分為分類型或數量型

    • 分類型數據

      • 是用來標記或名稱來識別項目的類型
    • 數據量數據

      • 是表示多少或大小的數值

分類型數據匯總

  • 頻數分布:表示在幾個互不重疊的組別中每一組的項目個數,就是出現頻率

    • 如何使用表格法和圖形法匯總分類型數據

頻數

  • 統計后結果

頻數

統計結果信息:提供了更多原始數據看不到的內涵,受歡迎程度誰最高,誰最低一目了然

相對頻數分布和百分數頻數分布

  • 相對頻數分布

    • 一組的相對頻數是屬於該組的項目個數的比例

    • 例如:50次購買飲料中可口可樂的相對頻數=19/50

  • 百分數頻數分布

    • 相對頻數*100%

條形圖和餅形圖

  • 條形圖:用來描繪已匯總的分類型數據的頻數分布、相對頻數分布或百分數頻數分布(是不是很繞口),別擔心,看圖,官方裝逼詞就非把簡單的東西復雜解釋

條形

總結:條形圖就是需要先匯總原始數據,之后把分類的類型放橫軸,出現的次數放縱軸

  • 餅形圖:是另一種描繪分類型數據的相對頻數和百分數頻數分布的圖形方法。

    • 匯總,算出相對頻數
    • 相對頻數 * 360°

    餅型

注意:在實際生活中,會有很多的飲料分類,大部分只有很少的購買次數,大多數的統計專家建議把頻數較少的組合合並到一個叫"其他"的綜合組去,頻數為5%或更少的組常常這樣處理

練習

一、

組別 相對頻數 組別 相對頻數
A 0.22 C 0.40
B 0.18 D

a.組別D的相對頻數是多少?

  • 0.2 = 1-0.22-0.18-0.40

b.若樣本容量為200,組別D的頻數是多少?

  • x = 200*0.2 = 40

二、

DH CSI DH CSI L&O
Trace CSI L&O Trace CSI
CSI DH Trace CSI DH
L&O L&O L&O CSI DH
CSI DH DH L&O CSI
DH Trace CSI Trace DH
DH CSI CSI L&O CSI
L&O CSI Trace Trace DH
L&O CSI CSI CSI DH
CSI DH Trace Trace L&O

a.這些數據是分類型還是數量型的?

  • 分類型

b.編制這些數據的頻數分布和百分數頻數分布

  • 繪制如下
分組 頻數 頻數分布 百分數頻數
DH 13 0.26 26%
Trace 9 0.18 18%
CSI 18 0.36 36%
L&O 10 0.10 10%

c.繪制這些數據的條形圖和餅形圖

  • 條形圖

條形圖

  • 餅狀圖
    餅圖

d.以樣本為依據,哪個節目擁有最多的電視觀眾?哪個位居第二?

  • CIS第一,DH第二

數量型數據匯總

頻數分布

對於數量型數據,在將互不重疊的組用於頻數分布時,我們必須更加小心。

確定頻數分布的分組時,三個必要的步驟是:

(1) 確定互不重疊組的組數
(2) 確定每組的組寬
(3) 確定組限

2-4

  • 組數

    • 組是通過對數據規定范圍而形成的,這個規定的范圍用於對數據進行分組。
    • 一般性原則我們建議使用5-20組,如果數據少,只要5-6組就可以匯總數據
    • 分組的目的是用足夠多的組來顯示數據的變異性,而不是有這么多的組只包含很少的數據項。
    • 圖表2-4的數據項相對較少(n = 20),可以編制5組的頻數分布
  • 組寬

    • 近似組寬 = (最大數據值-最小數據值) / 組數
    • 確定天數為5
  • 組限

    • 第一組下組限必須包含最小組,最后一組上限必須包含最大值
    • 最小確定為10,則10-14,15-19,20-24,25-29和30-34
    • 最大數據值33包含在30-34
    • 組寬為兩個下組限之差 15-10 = 5
  • 組中值

    • 下組限和上組限的中間值

相對頻數分布和百分數頻數分布

  • 頻數分布的目的是為了揭示自然的分組和數據的變異性

2-6

打點圖(dot plot)

是一種最簡單的數據圖形匯總方式。橫軸是數據的范圍,每一個數據值由位於橫軸上的點表示。

打點圖能夠顯示數據的細節,且有利於比較兩個或更多變量的數據分布。
2-3

直方圖

直方圖是一種常用的數量型數據的圖形描述方式。

  • 由先前已匯總出的頻數分布、相對頻數分布或百分數頻數可繪制直方圖。
  • 橫軸放變量,以組寬為底。
  • 縱軸放頻數,相對頻數或百分數頻數。

2-5

  • 適度左偏

    • 考試成績是這種直方圖的典型應用。

    • 因為沒有成績在100%之上,大多數成績又常常在70%之上,只有極少數的成績很低。

    左偏

  • 適度右篇

    • 房屋價格的數據可能是這種直方圖的例子。

    • 少數昂貴的住宅造成右尾偏斜。

    右偏

  • 對稱

    • 在應用中的直方圖可能大致對稱,但永遠不會完全對稱。

    • SAT的分數、人的身高和體重等數據的直方圖大致對稱。

    對稱

  • 嚴重偏右

    • 房屋價格、工資、銷售量等數據,常常導致直方圖右篇。

    • 在商務與經濟應用中得到的數據,常常使直方圖右篇。

    右篇

累積分布

  • 累積頻數分布:對頻數分布略加變化,可得到數值型數據的另一種表格匯總方式。
  • 累積頻數,注意看累積兩個字,累積小於等於某個值,而不是表示每一組的頻數。

images/image/2-7.png

  • 累積分布表明:

    • 有4次審計在14天內完成,有19次審計在29天之內完成。
  • 累積相對頻數分布

    • 數據值小於或等於每一組上組限的數據項的比例和百分數
  • 累積百分數頻數分布

    • 標明有95%的審計在29之內完成。

累積曲線

累積分布的圖形表示稱為累積曲線。

  • 橫軸表示數據值。

  • 縱軸表示累積頻數或累積相對頻數。

  • 通過標出對應於每一組累積頻數的點,就可以得到累積曲線。

2-8

總結

  1. 條形圖和直方圖在本質上是同一事物,他們都是頻數分布數據的圖形表示。

    • 離散的數量型數據,縱條之間有間隔是合適的,例如:飲料的受歡迎數
    • 連續的數量型數據,縱條之間有間隔是不合適的。例如:審計時間這種
  2. 開口組是指只有一個下組限或上組限的組。

    • 例如審計時間有兩個58,65天的值,中間隔了很遠
    • 直接以35或35以上來簡化頻數分布,頻數為2
    • 開口組經常出現在最上端或最下端,偶爾兩端都有
  3. 累積頻數分布的最后一個數據項總是等於觀測值的總數。

練習

  1. 考慮下列數據

練習題

a. 利用組12-14,15-17,18-20,21-23和24-26來編制頻數分布。

組數 頻數
12-14 2
15-17 8
18-20 11
21-23 10
24-26 9

說明:這個組數為5組,組寬3,最小下組限12,最大上組限26

b. 用(a)中的組編制相對頻數分布和百分數頻數分布

組數 相對頻數分布 百分數頻數分布
12-14 0.05 5%
15-17 0.2 20%
18-20 0.275 27.5%
21-23 0.25 25%
24-26 0.225 22.5%

c.編制數據的直方圖和累積曲線

  • 直方圖(我用excel做的)

t-2

  • 累積曲線

    • 第一步先算出累積分布的表
    組數 累積頻數 累積相對頻數 累積百分數頻數
    小於等於14 2 0.05 5%
    小於等於17 10 0.25 25%
    小於等於20 21 0.525 52.5%
    小於等於23 31 0.775 77.5%
    小於等於26 40 1 100%
    • 第二步根據累積分布表選點

    • 因為14-15、17-18等中間有一個單位的間隔,通過標出組限間的中點來消除這些間隔。
      14.5、17.5、20.5、23.5、26.5

    • 這個圖畫的有點費勁,坎坎坷坷不太完美

    t-3


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM