數據的集中趨勢
眾數
眾數是樣本觀測值在頻數分布表中頻數最多的那一組的組中值,主要應用於大面積普查研究之中。眾數是在一組數據中,出現次數最多的數據,是一組數據中的原數據,而不是相應的次數。一組數據中的眾數不止一個,如數據2、3、-1、2、1、3中,2、3都出現了兩次,它們都是這組數據中的眾數。一般來說,一組數據中,出現次數最多的數就叫這組數據的眾數。
1,2,3,3,4的眾數是3。 但是,如果有兩個或兩個以上個數出現次數都是最多的,那么這幾個數都是這組數據的眾數。 1,2,2,3,3,4的眾數是2和3。 還有,如果所有數據出現的次數都一樣,那么這組數據沒有眾數。 1,2,3,4,5沒有眾數。
計算方法:

分位數
分位數(Quantile),亦稱分位點,是指將一個隨機變量的概率分布范圍分為幾個等份的數值點,常用的有中位數(即二分位數)、四分位數、百分位數等。
分位數指的就是連續分布函數中的一個點,這個點對應概率p。若概率0<p<1,隨機變量X或它的概率分布的分位數Za,是指滿足條件p(X≤Za)=α的實數
常見分類
二分位數
對於有限的數集,可以通過把所有觀察值高低排序后找出正中間的一個作為中位數。如果觀察值有偶數個,則中位數不唯一,通常取最中間的兩個數值的平均數作為中位數,即二分位數。
一個數集中最多有一半的數值小於中位數,也最多有一半的數值大於中位數。如果大於和小於中位數的數值個數均少於一半,那么數集中必有若干值等同於中位數。
計算有限個數的數據的二分位數的方法是:把所有的同類數據按照大小的順序排列。如果數據的個數是奇數,則中間那個數據就是這群數據的中位數;如果數據的個數是偶數,則中間那2個數據的算術平均值就是這群數據的中位數。
四分位數
第一四分位數(Q1),又稱“較小四分位數”,等於該樣本中所有數值由小到大排列后第25%的數字;
第二四分位數(Q2),又稱“中位數”,等於該樣本中所有數值由小到大排列后第50%的數字;
第三四分位數(Q3),又稱“較大四分位數”,等於該樣本中所有數值由小到大排列后第75%的數字。
第三四分位數與第一四分位數的差距又稱四分位距。
中位數
中位數(又稱中值,英語:Median),統計學中的專有名詞,代表一個樣本、種群或概率分布中的一個數值,其可將數值集合划分為相等的上下兩部分。 對於有限的數集,可以通過把所有觀察值高低排序后找出正中間的一個作為中位數。如果觀察值有偶數個,通常取最中間的兩個數值的平均數作為中位數。
中位數,又稱中點數,中值。中位數是按順序排列的一組數據中居於中間位置的數,即在這組數據中,有一半的數據比他大,有一半的數據比他小,這里用 M0.5來表示中位數。(注意:中位數和眾數不同,眾數指最多的數,眾數有時不止一個,而中位數只能有一個。)

對於一組有限個數的數據來說,它們的中位數是這樣的一種數:這群數據里的一半的數據比它大,而另外一半數據比它小。 計算有限個數的數據的中位數的方法是:把所有的同類數據按照大小的順序排列。如果數據的個數是奇數,則中間那個數據就是這群數據的中位數;如果數據的個數是偶數,則中間那2個數據的算術平均值就是這群數據的中位數。 中位數:也就是選取中間的數,是一種衡量集中趨勢的方法。
計算示例:

平均數
平均數,統計學術語,是表示一組數據集中趨勢的量數,是指在一組數據中所有數據之和再除以這組數據的個數。它是反映數據集中趨勢的一項指標。解答平均數應用題的關鍵在於確定“總數量”以及和總數量對應的總份數。 在統計工作中,平均數(均值)和標准差是描述數據資料集中趨勢和離散程度的兩個最重要的測度值。
統計平均數是用於反映現象總體的一般水平,或分布的集中趨勢。數值平均數是總體標志總量對比總體單位數而計算的。 平均數是統計中的一個重要概念。小學數學里所講的平均數一般是指算術平均數,也就是一組數據的和除以這組數據的個數所得的商。在統計中算術平均數常用於表示統計對象的一般水平,它是描述數據集中位置的一個統計量。既可以用它來反映一組數據的一般情況、和平均水平,也可以用它進行不同組數據的比較,以看出組與組之間的差別。 用平均數表示一組數據的情況,有直觀、簡明的特點,所以在日常生活中經常用到,如平均速度、平均身高、平均產量、平均成績等等。
算術平均數

加權平均數

幾何平均數

例題如下:
3頭牛和6只羊一天共吃草93千克,6頭牛和5只羊一天共吃草130千克。3頭牛一天共吃草多少千克?
正解:
45千克 直接求法:利用公式求出平均數,這是由“均分”思想產生的方法。
總數量÷總份數=平均數 基數求法:利用公式求平均數。
這里是選設各數中最小者為基數,它是由“補差”思想產生的方法。
基數+各數與基數的差÷總份數=平均數 李師傅前4天平均每天加工30個零件,改進技術后,第五天加工零件55個,李師傅5天中平均每天加工多少零件?
解答:
先算出5天的總零件數:30×4+55=175(個)
再求出5天中平均每天加零件的個數。 (30×4+55)÷5=35(個) 四(1)班有學生40人,數學期末考試時有三位同學困病缺考,平均成績是80分。
后來這三位同學補考,成績分別為88分、87分和85分,這時全班同學的平均成績是多少分?
正解:
(40—3)×80=2960(分) (2960+88+87+85)÷40=80.5(分) 王師傅4天平均加工26個零件,第5天加工的零件數比5天平均數還多4.8個。王師傅第5天加工多少個零件?
解答:
設王師傅第5天加工,x個零件。
由5天平均數這個“量”可列方程。
X-4.8=26×4+x)÷5
5x-24=104+x
4x=128
X=32 一個學生前六次測驗的平均分是93分,比七次測驗的平均分高3分,他第七次測驗得了多少分?
正解:
93×6=558(分)
93—3=90(分)
90×7=630(分)
630—588=72(分) 小明前幾次數學測驗的平均成績是84分,這一次要考100分才能把平均成績提高到86分。這一次是第幾次測驗?
解答:
(100-84)÷(86-84)=8次 小松前幾次考試的平均成績是84分,這一次考了94分就把平均成績提高到86分了。這一次是第幾次考試?
正解:
(94—84) ÷(86—84)=10÷2=5(次) 張明前五次數學測驗的平均成績是88分。為了使平均成績達到92.5分,張明要連續考多少次滿分?(每次測驗滿分是100分。)
解答:
(92.5-88)×5÷(100-92.5)=4.5×5÷7.5=3(次) 小王前5次數學考試的平均成績是85.8分,為了使平均成績盡快達到90分以上,小王至少還要參加幾次考試?(每次滿分為100分。)
正解:
(90—85.8)×5÷(100-90)=4.2×5÷10=2.1
相對離散程度
離散系數
離散系數又稱變異系數,是統計學當中的常用統計指標。離散系數是測度數據離散程度的相對統計 量,主要是用於比較不同樣本數據的離散程度。離散系數大,說明數據的離散程度也大;離散系數小,說明數據的離散程度也小。
離散系數(coefficient of variation)只在平均值不為零時有定義,而且一般適用於平均值大於零的情況。變異系數也被稱為標准離差率或單位風險。離散系數反映單位均值上的離散程度,常用在兩個總體均值不等的離散程度的比較上。若兩個總體的均值相等,則比較標准差系數與比較標准差是等價的。一組數據的標准差與其相應的均值之比,是測度數據離散程度的相對指標,其作用主要是用於比較不同組別數據的離散程度。 其計算公式為
( σ:標准差,μ:平均值)。在對比情況下,離散系數較大的其分布情況差異也大。
數據的離中趨勢
數值型數據
方差


方差是指一組數據中的各個數減這組數據的平均數的平方和的平均數。 如(1,2,3,4,5)這組數據的方差; 先求出這組數據的平均數(1+2+3+4+5)÷5=3; 然后再求各個數與平均數的差的平方和,(1-3)2+(2-3)2+(3-3)2+(4-3)2+(5-3)2=10; 再求平均數10÷5=2,即這組數據的方差為2.
極差
極差又稱范圍誤差或全距(Range),以R表示,是用來表示統計資料中的變異量數(measures of variation),其最大值與最小值之間的差距,即最大值減最小值后所得之數據。 它是標志值變動的最大范圍,它是測定標志變動的最簡單的指標。移動極差(Moving Range)是其中的一種。極差不能用作比較,單位不同 ,方差能用作比較, 因為都是個比率。
計算公式

計算示例:求下列數字集的極差 65、81、73、85、94、79、67、83、82 解:極差指的是這些數字分開得有多遠,計算方法是:用其中最大的數減去最小的數。 首先找其中最大的數,65、81、73、85、94、79、67、83、82 最大數是94,94比其他數都大,所以它是這些數字中最大的。然后要減去這些數字中最小的。該數字集中最小的數字是65。 那么極差是: 94−65=29 這個數字越大,表示分得越開,最大數和最小數之間的差就越大,該數越小,數字間就越緊密,這就是極差的概念。
標准差
標准差(Standard Deviation) ,中文環境中又常稱均方差,是離均差平方的算術平均數的平方根,用σ表示。標准差是方差的算術平方根。標准差能反映一個數據集的離散程度。平均數相同的兩組數據,標准差未必相同。
計算示例

平均差
平均差是總體各單位標志對其算術平均數的離差絕對值的算術平均數。它綜合反映了總體各單位標志值的變動程度。平均差越大,則表示標志變動度越大,反之則表示標志變動度越小。
平均差的計算

順序數據
四分位差
四分位差又稱內距、也稱四分間距(inter-quartile range),是指將各個變量值按大小順序排列,然后將此數列分成四等份,所得第三個四分位上的值與第一個四分位上的值的差。
四分位差反映了中間50%數據的離散程度。其數值越小,說明中間的數據越集中;數值越大,說明中間的數據越分散。與極差(最大值與最小值之差)相比,四分位差不受極值的影響。此外,由於中位數處於數據的中間位置,因此四分位差的大小在一定程度上也說明了中位數對一組數據的代表程度。
計算示例


分類數據
異眾比率
異眾比率又稱離異比率或變差比,是指的是非眾數的次數與全部變量值總次數的比率,即眾數不能代表的那一部分變量值在總體中的比重。
異眾比率的作用是衡量眾數對一組數據的代表程度。異眾比率越大,說明非眾數組的頻數占總頻數的比重越大,眾數的代表性就越差;異眾比率越小,說明非眾數組的頻數占總頻數的比重越小,眾數的代表性越好。

分布形狀
偏態系數
偏度是統計數據分布偏斜方向和程度的度量,是統計數據分布非對稱程度的數字特征。
計算公式

三種情況

峰態系數
是指次數分布曲線頂峰的尖平程度,是次數分布的又一重要特征。統計上,常以正態分布曲線為標准,來觀察比較某一次數分布曲線的頂端正黨風尖頂或平頂以及尖平程度的大小。
根據變量值的集中與分散程度,峰度一般可表現為三種形態:尖頂峰度、平頂峰度和標准峰度。當變量值的次數在眾數周圍分布比較集中,使次數分布曲線比正態分布曲線頂峰更為隆起尖峭,稱為尖頂峰度;當變量值的次數在眾數周圍分布較為分散,使次數分布曲線較正態分布曲線更為平緩,稱為平頂峰度。可見,尖頂峰度或平頂峰度都是相對正態分布曲線的標准峰度而言的。
峰態的測定,一般是采用統計動差方法,即以四階中心動差V4為測定依據,將V4除以其標准差的四次方σ4,以消除單位量綱的影響,便於不同次數分布曲線的峰度比較,從而得到以無名數表示的相對數,即為峰度的測定值(β)。
計算公式為:

由統計計算分析可知,當次數分布為正態分布曲線時,β = 3,以此為標准就可比較分析各種次數分布曲線的峰度。當β > 3時,表示分布曲線呈尖頂峰度,為尖頂曲線,說明變量值的次數較為密集地分布在眾數的周圍,β值越大於3,分布曲線的頂端越尖峭。當β < 3時,表示分布曲線呈平頂峰度,為平頂曲線,說明變量值的次數分布比較均勻地分散在眾數的兩側,β值越小於3,則分布曲線的頂峰就越平緩。一般當β值接近於1.8時,分布曲線呈水平矩形分布形態,說明各組變量值的次數相同。當β值小於1.8時,次數分布曲線趨向“U”型分布。實際統計分析中,通常將偏度和峰度結合起來運用,以判斷變量分布是否接近於正態分布。