《統計學》第2章 用圖表展示數據


2.1 用圖表表示定性數據
1、頻數分布表
對數據進行分類,列出所有的類別,然后統計每一類別的頻數。
頻數:頻數分布表中落在某一特定類別的數據個數叫做頻數。
 
有兩個變量交叉分類的頻數分布表稱為 列聯表,也稱 交叉表
定性數據,除了用頻數分布表,還可以使用比例、百分比、比率等統計量進行描述。
比例:一個樣本中各類別的頻數與全部頻數之比,通常用於反映樣本的構成或結構。
百分比:將樣本乘以100得到的數值稱為百分比。
比率:樣本(或總體)中各不同類別頻數之間的比值。
 
定性數據的圖示:條形圖、帕累托特圖、餅圖、環形圖。
帕累托特圖:該圖時按各類別出現的頻數多少排序后繪制的條形圖。
 
2.2 用圖表展示定量數據
定性數據的圖示方法基本上都適用於定量數據,但定量數據還有一些特定的圖示方法。
1、頻數分布表
需要先將原始數據按照某種標准分成不同的組別,然后統計出各組別的數據頻數即可。
(1)對數據分組
一般數據所分組數K應不少於5且不多於15組.
(2)確定各組的組距
組距=(最大值-最小值)除以組數
 
2、分組數據看分布:直方圖
用矩形的高度和寬度(即面積)來展示頻數分布。
 
3、未分組數據看分 布:莖葉圖和箱線圖、垂線圖和誤差圖
箱線圖:
不僅可以用於反映一組數據分布的特征,比如分布是否對稱,是否存在離群點,還可以對多組數據的分布特征進行比較。
(1)首先找出一組數據的中位數和兩個四分位數,並畫出箱子
Q75%-Q25%稱為 四分位差或四分位距, 用IQR表示。用兩個四分位數畫出箱子,並畫出中位數在箱子里的位置。
(2)計算出內圍欄和相鄰值,並畫出須線。
內圍欄:是與Q25%和Q75%的距離等於1.5倍四分位差的兩個點。
下內圍欄:Q25%-1.5*IQR
上內圍欄:Q75%+1.5*IQR
一般內圍欄不在箱線圖中顯示,只是作為確定離群點的界限。
相鄰值:上下內圍欄之間的最大值和最小值,其中Q25%-1.5*IQR范圍內的最小值為下相鄰值,Q75%+1.5*IQR范圍內的最大值稱為上相鄰值。
用直線將上下相鄰值分別與箱子連接,稱為 須線
(3)找出離群點,並在圖中單獨標出。
離群點:大於上內圍欄或小於下內圍欄的數值,也稱外部點。
 
垂線圖
可用於展示多個變量或多個樣本取值的分布狀況。它是將屬於同一樣本或類別的多個取值的散點用一條垂線連接起來,用垂線的長度及垂線上的各個點來反映某個樣本或類別取值的差異及其分布狀況。
誤差圖
誤差圖是以均值為中心,加減一定倍數的標准差(也可以是加減一定倍數的標准誤差)繪制而成的(該圖也可以繪制均值的一定置信水平下的置信區間)。
誤差圖可用於展示多個樣本或分類的不同取值的分布情況和離散情況。
 
3、兩個變量之間的關系:散點圖
散點圖使用二維坐標展示兩個變量之間關系的一種圖形。 
同時比較一個變量與其他變量之間的關系,也可以把它們的散點圖繪制在同一張圖里,繪制成重疊散點圖。
注意:繪制重疊散點圖時,變量值之間的數值差異不能過大,否則不便於比較。
同時比較多個變量兩兩之間的關系,可以繪制矩陣散點圖。
 
4、比較多個樣本的相似性:雷達圖和輪廓圖
雷達圖:從一個點出發,用每一條射線代表一個變量,多個變量的數據點連接稱線,即圍成一個區域,多個樣本圍城多個區域,就是雷達圖。利用它可以研究多個樣本之間的相似程度。
 
輪廓圖:平行坐標圖或多線圖,用橫坐標表示各樣本(或變量),縱軸表示每個樣本的多個變量(或樣本)的取值,將不同樣本的同一個變量的取值用折線連接,即為輪廓圖 。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM