數據分布特征的描述


原文鏈接:https://blog.csdn.net/fjssharpsword/article/details/74911180

 

知識點:數據分布特征的描述
1、變量集中趨勢的測定

變量在不同個體或不同時間條件下具體表現出來的數據是不同的,不過眾多個體的數據常常會呈現出在一定范圍內圍繞某個中心而波動的分布特征。

衡量數據集中趨勢的指標有兩類:一類是數值平均數,包括算數平均數、調和平均數、幾何平均數;另一類是位置代表值,根據數據所處位置直接觀察或根據與特定位置有關的部分數據來確定的代表值,主要有眾數和中位數。

測定集中趨勢指標的作用主要是:1)反映變量分布的集中趨勢和一般水平;2)可用來比較同一現象在不同空間或不同階段的發展水平;3)可用來分析現象之間的依存關系。

1)數值平均數

a、算術平均數(arithmeticmean),即均值(mean):將一組數據的總和除以這組數據的項數所得的結果。

 

 

 

2)位置平均數

a、眾數(mode)是一組數據中出現頻數最多、頻率最高的變量值。眾數代表的是最常見的、最普遍的狀況,是對現象集中趨勢的度量。眾數既可度量定量變量(數值型數據)的集中趨勢,也可用來測度定性變量(非數值型數據)的集中趨勢。

b、中位數(median)是將數據從小到大排序后位置居中的數值,奇數取中間,偶數取中間兩個數值的平均數。

總結:算術平均數是數值平均數,和中位數一樣在任何一組數據中都存在且是唯一的。算術平均數受數據中極端值的影響,而眾數和中位數則不受極端值的影響。算術平均和眾數、中位數三者之間的數量關系取決於數據分布的偏斜(非對稱)程度:對於呈現單峰分布特征的數據,如果分布是對稱,則三者相等;如分布是左偏(負偏),數據中的極小值會使算術平均數偏向較小的一方,極小值大小不影響中位數,但其所占項數會影響數據的中間位置從而略使中位數偏小,眾數則完全不受極小值大小和位置的影響,所以是眾數大於中位數大於算術平均數;如果分布式右偏(正偏),則反之。

參考:http://blog.csdn.net/fjssharpsword/article/details/54135918

2、變量離散程度的測定

數據的集中趨勢和離散程度是數據分布最基本的兩大特征。集中趨勢反映了數據聚集的中心所在,數據的離散程度說明數據之間差異程度的大小。測量離散程度的指標叫變異指標,其主要作用是描述數據的離散程度,反映變量的的穩定性、均衡性;也可以衡量平均數的代表性,數據分布越分散、離散程度越大,平均數的代表性就越小。

變異指標主要有兩類:一類是用絕對數或平均數表示的,主要有極差、四分位差、平均差、標准差等,這類變異指標的計量單位與數據的計量單位相同;另一類是用相對數表示,主要有離散系統、異眾比率等,是沒有量綱(物理量的基本屬性)的比率。

1)極差、四分位差和平均差

a、極差(range):是一組數據的最大值和最小值之差,R=xmax-xmin。

b、四分位差(quartiledeviation):為克服極差受極端值影響的局限性,去到部分尾端數值后,再來測度中間數據的差異程度,四分位差即是。四分位差是第3四分位差與第1四分位差之差。四分位差實質是兩段各去掉四分之一的數據以后的極差,表示占全部數據一半的中間數據的離散程度。四分位差依據數據順序計算,是一種順序統計量。

 

 

 

 

 

 

 

 

 

————————————————



免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM