首先,了解幾個相關概念。
頻數:在一組樣本數據中,不同的數據出現的次數有多有少,或者說它們出現的頻繁程度不同,我們稱每個數據出現的次數為頻數。
頻率:每個數據出現的次數與樣本數據總量的比值為頻率。
組數:把全體樣本數據分成的組的個數(當數據總量在100個以內時,常常分為5~12組)。
組距:把全體樣本數據分成若干個組,每個小組在x軸上的兩個左右端點的距離。
極差:全體樣本數據中的最大值與最小值的差。
由以上定義,可以得到下面的關系:
頻數 極差 頻率 = ———————— , 組距 = ——————— 樣本總數 組數
頻率分布直方圖(Frequency distribution histogram):
在直角坐標系中,橫軸表示樣本數據的連續可取數值,按數據的最小值和最大值把樣本數據分為m組,使最大值和最小值落在開區間(a,b)內,a略小於樣本數據的最小值,b略大於樣本數據的最大值。組距為d=(b-a)/m,各數據組的邊界范圍按左閉右開區間,如[a,a+d),[a+d,a+2d),……[a+(m-1)d,b)。縱軸表示頻率除以組距(落在各組樣本數據的個數稱為頻數,頻數除以樣本總數為頻率)的值,以頻率和組距的商為高、組距為底的矩形在直角坐標系上來表示,由此畫成的統計圖叫做頻率分布直方圖。
頻數分布直方圖:
通過長方形的高代表對應組的頻數與組距的比(因為組距是一個常數,為了畫圖和看圖方便,通常直接用高表示頻數),這樣的統計圖稱為頻數分布直方圖。頻數分布直方圖能:①清楚顯示各組頻數分布情況;②易於顯示各組之間頻數的差別。
由以上兩個定義可知,頻率分布直方圖和頻數分布直方圖的關系如下:
① 二者的橫坐標是一樣的,都是代表樣本數據,且組距相同;
② 二者的直方圖的高度變化是一樣的;
③ 二者的縱坐標是不一樣的,前者為頻率和組距的比值;后者為頻數。
如下所示:
在頻率分布直方圖中,同時也繪制了正態分布曲線。那么,如何在頻數分布直方圖上繪制一條類似正態分布曲線的曲線呢?
答案是:只要把頻率分布直方圖中的正態分布曲線進行一定比例的放大即可。那么,這個比例到底是多少呢?下面來計算一下。
頻率 頻數 / 樣本總數 組數 組數 ———— = —————————————— = 頻數 × ————————————————— = 頻數 × ———————————————————————————————————————— 組距 極差 / 組數 樣本總數 × 極差 樣本總數 ×(樣本中的最大值 - 樣本中的最小值)
還需要注意的一點是繪圖時縱坐標表示的單位高度,一般是等於多少像素。可以表示為:
縱坐標的總體高度 單位高度 = ———————————————— 縱坐標的表示范圍
假設f(x)正態分布曲線的概率密度函數,那么在頻數分布直方圖上繪制正態分布曲線時,曲線的瞬時值大小為:
樣本總數 × (樣本中的最大值 - 樣本中的最小值) 縱坐標的總體高度
———————————————————————————————————————————— × ———————————————— × 概率密度函數
組數 縱坐標的表示范圍