遷移到:http://www.bdata-cap.com/newsinfo/1741421.html
本文內容
- 平均數
- 中位數
- 眾數
- 參考資料
- 演示
最近大 BOSS“迷上”了一個網絡游戲(什么游戲就不多說啦~),讓我寫個程序幫他算一下(現在他讓另一個同事寫了,我要改 bug 沒時間,所以,我主要是沒事時“湊熱鬧”提點想法)。期間,發現這個游戲一定是基於某個數學模型,於是在網上找了一個 VaR 模型,雖然現在覺得正態分布更合適。 VaR 模型最初是 J.P Morgan 用來預測金融風險的數學模型,現在有很多改進型。我對里邊使用的一些統計名詞有些模糊,就找資料回憶了一下,畢竟我不是學統計學的,雖然知道點,但認識得不深、不系統。
本文主要說明平均數、中位數和眾數,以及它們之間的關系,這三種的目的類似,都是為了反應一組數據的一般情況(代表性),只是適用的場景不同。我們對平均數很熟悉,但它並不是“萬能的”,若數據中出現極大或極小值,則平均數受到的影響很大,而中位數則不會。這也就是為什么,早先一些娛樂節目,台下的評委評分后,主持人會去掉一個最小分數和一個最大分數,再取平均數的原因。或是,上學時,老師對成績差的學生會特別“憤怒”,常說“你拉下了全班的成績”、“拖了大家的后退~”。
平均數
平均數(Mean),或均值是統計中的一個重要概念。是集中趨勢的最常用測度值,目的是確定一組數據的均衡點。這里的平均數是指算術平均數,即一組數據的和除以這組數據的個數所得的平均值,也叫算術平均值。
計算
平均數的計算公式為:
在統計中,算術平均數常用於表示統計對象的一般水平,描述數據集中程度的一個量。我們既可以用它來反映一組數據的一般情況,也可以用它進行不同組數據的比較,以便看出組與組之間的差別。用平均數可以直觀、簡明地表示一組數據的情況,所以日常生活中經常用到,如中小學學生的平均身高,由於生活條件的改善,現在孩子的身高肯定比80年代要高;平均成績,這個一定不陌生,上學時,老師對成績差的學生會特別“憤怒”,常說“你拉下了全班的成績”、“拖了大家的后退~”。
統計學上,算術平均數較中位數、眾數更少地受到隨機因素影響,但缺點是它更容易受到極端值影響。
除了算術平均數,還有幾何平均數、調和平均數、平方平均數、移動平均數等。
算術平均數用於數值型數據,不能用於分類數據和順序數據。
示例
平均數很簡單,但引出它主要是為了跟后面的中位數和眾數進行比較。
中位數
中位數(Medians)是一個統計學的專有名詞,代表一個樣本、種群或概率分布中的一個數值,可以將數值集合划分為相等的兩部分,即,若設連續隨機變量 X 的分布函數為 F(X),那么滿足條件 F(X)=1/2 ,稱為 X 或分布 F 的中位數。中位數是用來衡量集中趨勢的方法。對於一個有限的、有序的數集,位於中間位置的那個數值就是中位數,用 Me 表示。
“中位數”中的“位”,即“位置”,看后“意義”小節,你會理解這段話的意思。
計算
若集合的項數為奇數,則處於中間位置的數據為中位數;若項數為偶數,則中位數為處於中間位置的兩個數值的算術平均數。
實數 ,按大小順序(降序、升序都可)排列為
。則實數數列 的中位數為 :
示例
若有包含8個數值的數組 ,按升序為
,則中位數為 (23+25)/2=24。
意義——算術平均數與中位數
中位數趨於數據集合的中間,是所有數據的代表值,它不受分布數列的極大或極小值影響,對極大極小值不敏感,一定程度上提高了中位數對分布數列的代表性。有些離散型變量的單項式數列,當次數分布偏態時,中位數的代表性會受到影響。
中位數的作用與算術平均數相近,也是作為數據的代表值。在一個等差數列或一個正態分布數列中,中位數就等於算術平均數。
在數列中出現了極端值的情況下,用中位數作為代表值比算術平均數更好。如果研究的目的是為了反映中間水平,應該用中位數。在統計數據的處理和分析時,可結合使用中位數。
例如,有序組數 x=(200, 250, 300, 1000,2000),其平均數為 750,中位數為 300,因為一半比 300 多,另一個半比 300 少;若有序數組為 x=(200,250,300,500,1000),其平均數變為 450,但中位數還是 300。
因此,平均數的變化較大。而中位數相對於平均數不太受極大極小值的影響。
眾數
眾數(Statistical Mode)是數據中出現頻率最多的數。用眾數代表一組數據,適合於數據量較多時使用,且眾數不受極端數據的影響,並且求法簡便。在一組數據中,如果個別數據有很大的變動,選擇中位數表示這組數據的“集中趨勢”就比較適合。
當數值或被觀察者沒有明顯次序(常發生於非數值性資料)時特別有用,由於可能無法良好定義算術平均數和中位數。例子:(蘋果, 蘋果, 香蕉, 橙, 橙, 橙, 桃) 的眾數是“橙”。
一組數據可能沒有眾數或有多個眾數。在高斯分布(正態分布)中,眾數位於峰值。
眾數主要用於分類數據,也可用於順序數據和數值型數據。
示例
若有數組 (2, 2, 3, 3, 4),則其眾數為 (2, 3);若數組為 (1, 2, 3, 4) ,則其沒有眾數。
算術平均數、中位數和眾數之間的關系
平均數、中位數和眾數三者之間,一個有趣的經驗關系是:
參考資料