原文鏈接:https://blog.csdn.net/pipisorry/article/details/72820982
考察評估數值數據散布或發散的度量。這些度量包括極差、分位數、四分位數、百分位數和四分位數極差。五數概括可以用盒圖顯示,它對於識別離群點是有用的。方差和標准差也可以指出數據分布的散布。
集中趨勢
集中趨勢(central tendency)在統計學中是指一組數據向某一中心值靠攏的程度,它反映了一組數據中心點的位置所在。集中趨勢測度就是尋找數據水平的代表值或中心值,低層數據的集中趨勢測度值適用於高層次的測量數據,能夠揭示總體中眾多個觀察值所圍繞與集中的中心,反之,高層次數據的集中趨勢測度值並不適用於低層次的測量數據。
在統計學中,集中趨勢(central tendency)或中央趨勢,在口語上也經常被稱為平均,表示一個概率分布的中間值。最常見的幾種集中趨勢包括算數平均數、中位數及眾數。
一維資料的集中趨勢可能有以下數種統計方法。
算數平均數
觀測值的總和除以觀測值的個數,即x1+x2+x3… +xnn{\displaystyle {\tfrac {x_{1}+x_{2}+x_{3}\ldots +x_{n}}{n}}}。常簡稱為平均數,也往往是背后概率分布的期望值之不偏估計。
中位數
將所有觀測值按大小排序后在順序上居中的數值。
眾數
出現最多次的觀測值。
幾何平均數
觀測值的乘積之觀測值個數方根,即(x1× x2× x3… × xn)1n{\displaystyle (x_{1}\times x_{2}\times x_{3}\ldots \times x_{n})^{\frac {1}{n}}}
調和平均數
觀測值個數除以觀測值倒數的總和,即n1x1+1x2+...+1xn{\displaystyle {\frac {n}{{\frac {1}{x_{1}}}+{\frac {1}{x_{2}}}+...+{\frac {1}{x_{n}}}}}}
加權平均數
考慮不同群資料貢獻程度不同時的算數平均數
截尾平均數(英語:Truncated_mean)(truncated mean)
忽略特定比例或特定數值之外的極端值后所得的平均數。例如,四分平均數(英語:Interquartile_mean)(interquartile mean)正是忽略25%前及75%后的資料后所得的算數平均數。
全距中點(英語:Midrange)(midrange)
最大值與最小值的算數平均數,即min(x)+max(x)2{\displaystyle {\frac {\min(x)+\max(x)}{2}}}。
中樞紐(英語:Midhinge)(midhinge)
第一四分位數與第三四分位數的算數平均數,即Q1+Q32{\displaystyle {\frac {Q_{1}+Q_{3}}{2}}}。
三均值(英語:Trimean)(trimean)
考慮三個四分位數的加權平均數,即Q1+2Q2+Q34{\displaystyle {\frac {Q_{1}+2Q_{2}+Q_{3}}{4}}}。
極端值調整平均數(英語:Winsorized_mean)(winsorized mean)
以最接近的觀測值取代特定比例的極端值后取得的算數平均數。舉例來說,考慮10個觀測值(由小到大排列為x1{\displaystyle x_{1}}至x10{\displaystyle x_{10}})的情況下,10%的極端值調整平均數為
x2+x2⏞ +x3+x4+x5+x6+x7+x8+x9+x9⏞ 10{\displaystyle {\frac {\overbrace {x_{2}+x_{2}} +x_{3}+x_{4}+x_{5}+x_{6}+x_{7}+x_{8}+\overbrace {x_{9}+x_{9}} }{10}}},
其中分別以x2{\displaystyle x_{2}}和x9{\displaystyle x_{9}}取代了x1{\displaystyle x_{1}}和x10{\displaystyle x_{10}}。
以上的統計量在多維變數中仍可單獨地被套用在各個維度上進行,但並不能保證在轉軸后仍維持一致的結果。
平均數、中位數與眾數的關系
在左右對稱的概率分布中,不同的集中趨勢統計量有相同結果,但在偏度遠離0時則可能不一致。在單峰型的概率分布(unimodal probability distribution)中,平均數(μ)、中位數(ν)與眾數(θ)的關系如下:[4]
|θ − μ |σ ≤ 3{\displaystyle {\frac {|\theta -\mu |}{\sigma }}\leq {\sqrt {3}}},
|ν − μ |σ ≤ 0.6{\displaystyle {\frac {|\nu -\mu |}{\sigma }}\leq {\sqrt {0.6}}},
|θ − ν |σ ≤ 3{\displaystyle {\frac {|\theta -\nu |}{\sigma }}\leq {\sqrt {3}}},
其中σ為標准偏差。至於任一概率分布,[5][6]
|ν − μ |σ ≤ 1{\displaystyle {\frac {|\nu -\mu |}{\sigma }}\leq 1}。
[wikipedia 集中趨勢]
偏度Skewness
在概率論和統計學中,偏度衡量實數隨機變量概率分布的不對稱性。偏度的值可以為正,可以為負或者甚至是無法定義。
在數量上,偏度為負(負偏態)就意味着在概率密度函數左側的尾部比右側的長,絕大多數的值(包括中位數在內)位於平均值的右側。
偏度為正(正偏態)就意味着在概率密度函數右側的尾部比左側的長,絕大多數的值(但不一定包括中位數)位於平均值的左側。
偏度為零就表示數值相對均勻地分布在平均值的兩側,但不一定意味着其為對稱分布。
lz正如 賈俊平的書:右偏分布,說明數據存在極大值,拉動均值向極值一方靠近。也就是說正偏態(右偏)是指數據極大值在正(右)的那一側。
負偏態(左)和正偏態(右)
如果分布對稱,那么平均值=中位數,偏度為零(此外,如果分布為單峰分布,那么平均值=中位數=眾數)。
隨機變量X的偏度γ1為三階標准矩,可被定義為:
γ 1=E [(X− μ σ )3]=μ 3σ 3=E [(X− μ )3] (E [(X− μ )2])3/2=κ 3κ 23/2 ,{\displaystyle \gamma _{1}=\operatorname {E} {\Big [}{\big (}{\tfrac {X-\mu }{\sigma }}{\big )}^{\!3}\,{\Big ]}={\frac {\mu _{3}}{\sigma ^{3}}}={\frac {\operatorname {E} {\big [}(X-\mu )^{3}{\big ]}}{\ \ \ (\operatorname {E} {\big [}(X-\mu )^{2}{\big ]})^{3/2}}}={\frac {\kappa _{3}}{\kappa _{2}^{3/2}}}\ ,}
其中μ3是三階中心矩,σ是標准差。E是期望算子。等式的最后以三階累積量與二階累積量的1.5次方的比率來表示偏度。這和用四階累積量除去二階累積量的平方來表示峰度的方法向類似。
如果假定Y為n個獨立變量之和並且這些變量和X具有相同的分布,那么Y的三階累積量是X的n倍,Y的二階累積量也是X的n倍,所以: Skew[Y]=Skew[X]/n{\displaystyle {\mbox{Skew}}[Y]={\mbox{Skew}}[X]/{\sqrt {n}}}。根據中心極限定理,當其接近高斯分布時變量之和的偏度減小。
右偏態分布,均值>中位數>眾數
既然均值左側的數比較多,對比中位數左右兩側數一樣多,則均值必在中位數的右側(即這樣圍成面積才大於0.5)。
另外,lz認為右偏的圖像圍成面積為0.5的分界點應該在峰值點(眾數)的右側,所以中位數大於眾數。(實際上應該是中位數>=眾數吧,舉個極端的示例就知道了,如[1...2,2,2,2,2,...,10000])
賈俊平的書:右偏分布,說明數據存在極大值,拉動均值向極值一方靠近,而眾數和中位數是位置的代表值,不受極值得影響。
峰度Kurtosis
在統計學中,峰度(Kurtosis)衡量實數隨機變量概率分布的峰態。峰度高就意味着方差增大是由低頻度的大於或小於平均值的極端差值引起的。
峰度是指數據分布的尖峭程度或峰凸程度。峰度大致有以下三種類型:
● 曲線更為隆起時,屬於尖頂峰度。
● 當數據分布的頻數,對眾數來說比較分散,使頻數分布曲線較正態分布曲線更為平滑的,屬於平頂峰度。
● 當數據分布的頻數,完全符合正態分布的規律,其頻數分布曲線與正態分布曲線完全相同時,屬於正態峰度。
峰度系數是離差四次方的平均數,再除以標准差的四次方。其計算公式為:
式中,α4 :峰度系數 ,δ4:標准差的四次方。
由於正態分布的峰度系數為3,所以,當α4>3為尖峰分布;當α4<為平頂分布。
Note: lz所以峰度可以用來檢測是否為正態分布。
另峰度也可以(wikipedia)被定義為四階累積量除以二階累積量的平方,它等於四階中心矩除以概率分布方差的平方再減去3:
γ 2=κ 4κ 22=μ 4σ 4− 3{\displaystyle \gamma _{2}={\frac {\kappa _{4}}{\kappa _{2}^{2}}}={\frac {\mu _{4}}{\sigma ^{4}}}-3}
這也被稱為超值峰度(excess kurtosis)。“減3”是為了讓正態分布的峰度為0。
假定Y為n個獨立變量之和,且這些變量和X具有相同的分布,那么:Kurt[Y] = Kurt[X] / n, 但如果峰度被定義為:μ4 / σ4,公式可變得更加復雜。
如果超值峰度為正,稱為尖峰態(leptokurtic)。如果超值峰度為負,稱為低峰態(platykurtic)。
峰度包括正態分布(峰度值=3),厚尾(峰度值<3),瘦尾(峰度值>3),均看尾部。如下圖(>,<寫反了):
[wikipedia 峰度]
[正態分布檢驗之偏態與峰度]
皮皮blog
[概率論:均值、方差與協方差矩陣 ]
標准差(英語:Standard Deviation,SD)
數學符號 σ(sigma),在概率統計中最常使用作為測量一組數值的離散程度之用。標准差定義:為方差開算術平方根,反映組內個體間的離散程度;標准差與期望值之比為標准離差率。測量到分布程度的結果,原則上具有兩種性質:
為非負數值;
與測量資料具有相同單位。
簡單來說,標准差是一組數值自平均值分散開來的程度的一種測量觀念。一個較大的標准差,代表大部分的數值和其平均值之間差異較大;一個較小的標准差,代表這些數值較接近平均值。從幾何學的角度出發,標准差可以理解為一個從n{\displaystyle n}維空間的一個點到一條直線的距離的函數。
重要的是,一個觀測一般不會遠離均值超過標准差的數倍。精確地說,使用不等式,可以證明最少的觀測離均值不超過k個標准差。因此,標准差是數據集發散的很好指示器。
總體標准差
SD=1N∑ i=1N(xi− μ )2{\displaystyle \ SD={\sqrt {{\frac {1}{N}}\sum _{i=1}^{N}(x_{i}-\mu )^{2}}}}
μ {\displaystyle \mu }為平均值(x¯ {\displaystyle {\overline {x}}})。
總體為隨機變量
一隨機變量X{\displaystyle X}的標准差定義為:
σ =E ((X− E (X))2)=E (X2)− (E (X))2{\displaystyle \sigma ={\sqrt {\operatorname {E} ((X-\operatorname {E} (X))^{2})}}={\sqrt {\operatorname {E} (X^{2})-(\operatorname {E} (X))^{2}}}}
須注意並非所有隨機變量都具有標准差,因為有些隨機變量不存在期望值。
離散隨機變量的標准差
若X{\displaystyle X}是由實數x1,x2,...,xn{\displaystyle x_{1},x_{2},...,x_{n}}構成的離散隨機變數(英語:discrete random variable),且每個值的概率相等,則X{\displaystyle X}的標准差定義為:
σ =1N∑ i=1N(xi− μ )2{\displaystyle \sigma ={\sqrt {{\frac {1}{N}}\sum _{i=1}^{N}(x_{i}-\mu )^{2}}}} ,其中 μ =1N(x1+⋯ +xN){\displaystyle \mu ={\frac {1}{N}}(x_{1}+\cdots +x_{N})}
然而若每個xi{\displaystyle x_{i}}可以有不同概率pi{\displaystyle p_{i}},則X{\displaystyle X}的標准差定義為:
σ =∑ i=1Npi(xi− μ )2{\displaystyle \sigma ={\sqrt {\sum _{i=1}^{N}p_{i}(x_{i}-\mu )^{2}}}} ,其中 μ =∑ i=1Npixi.{\displaystyle \mu =\sum _{i=1}^{N}p_{i}x_{i}.}
樣本的標准差
在真實世界中,找到一個總體的真實的標准差是不現實的。大多數情況下,總體標准差是通過隨機抽取一定量的樣本並計算樣本標准差估計的。
從一大組數值X1,⋯ ,XN{\displaystyle X_{1},\cdots ,X_{N}}當中取出一樣本數值組合x1,⋯ ,xn:n<N{\displaystyle x_{1},\cdots ,x_{n}:n<N},常定義其樣本標准差:
s=1n− 1∑ i=1n(xi− x¯ )2{\displaystyle s={\sqrt {{\frac {1}{n-1}}\sum _{i=1}^{n}(x_{i}-{\bar {x}})^{2}}}}
[wikipedia 標准差]
皮皮blog
極差/全距
用來表示統計資料中的變異量數(英語:measures of variation),為最大值與最小值之間的差額,即最大值減最小值后所得數值。
R=xmax-xmin
全距為離散程度的最簡單測度值,易受極端值影響。其適用於等距變數、比率變數,不適用於名義變數或次序變數。極差沒有充分利用數據的信息,但計算十分簡單,僅適用樣本容量較小(n<10)情況。極差不能用作比較,單位不同 ; 方差能用作比較, 因為都是個比率。
移動極差(Moving Range)
是指兩個或多個連續樣本值中最大值與最小值之差,這種差是按這樣方式計算的:每當得到一個額外的數據點時,就在樣本中加上這個新的點,同時刪除其中時間上“最老的”點,然后計算與這點有關的極差,因此每個極差的計算至少與前一個極差的計算共用一個點的值。一般說來,移動極差用於單值控制圖,並且通常用兩點(連續的點)來計算移動極差。
四分位數(Quartile)
四分位數(Quartile)是統計學中分位數的一種,即把所有數值由小到大排列並分成四等份,處於三個分割點位置的數值就是四分位數。
第一四分位數 (Q1),又稱“較小四分位數”,等於該樣本中所有數值由小到大排列后第25%的數字。
第二四分位數 (Q2),又稱“中位數”,等於該樣本中所有數值由小到大排列后第50%的數字。
第三四分位數 (Q3),又稱“較大四分位數”,等於該樣本中所有數值由小到大排列后第75%的數字。
四分位數值的選擇(存在不同標准)
1 主要選擇四分位的百分比值(p),及樣本總量(n)有以下數學公式可以表示:
Lp=(n)(p100){\displaystyle L_{p}=(n)\left({\cfrac {p}{100}}\right)}
情況1: 如果 L 是一個整數,則取 第 L 和 第 L+1 的平均值
情況2: 如果 L 不是一個整數,則取下一個最近的整數。(比如 L=1.2{\displaystyle L=1.2}, 則取 2 )
2 n表示項數
確定四分位數的位置
Q1的位置= (n+1) × 0.25
Q2的位置= (n+1) × 0.5
Q3的位置= (n+1) × 0.75
3 另外一種方法基於N-1 基礎。即
Q1的位置=1+(n-1)x 0.25
Q2的位置=1+(n-1)x 0.5
Q3的位置=1+(n-1)x 0.75
四分位距(InterQuartile Range, IQR)
第三四分位數與第一四分位數的差距又稱四分位距(InterQuartile Range, IQR)。
四分位距通常是用來構建箱形圖,以及對概率分布的簡要圖表概述。對一個對稱性分布數據(其中位數必然等於第三四分位數與第一四分位數的算術平均數),二分之一的四分差等於絕對中位差(MAD)。中位數是聚中趨勢的反映。
IQR=Q3− Q1{\displaystyle IQR=Q_{3}-Q_{1}}
[wikipedia 四分位數]
變異系數/離散系數Coefficient of Variation
在概率論和統計學中,變異系數,又稱“離散系數”,也被稱為標准離差率或單位風險,是概率分布離散程度的一個歸一化量度,其定義為標准差 σ {\displaystyle \ \sigma }與平均值 μ {\displaystyle \ \mu }之比[1]:
cv=σ μ {\displaystyle c_{v}={\sigma \over \mu }}
變異系數(coefficient of variation)只在平均值不為零時有定義,而且一般適用於平均值大於零的情況。
當需要比較兩組數據離散程度大小的時候,如果兩組數據的測量尺度相差太大,或者數據量綱的不同,直接使用標准差來進行比較不合適,此時就應當消除測量尺度和量綱的影響,而變異系數可以做到這一點,它是原始數據標准差與原始數據平均數的比。
變異系數只對由比率標量計算出來的數值有意義。舉例來說,對於一個氣溫的分布,使用開爾文或攝氏度來計算的話並不會改變標准差的值,但是溫度的平均值會改變,因此使用不同的溫標的話得出的變異系數是不同的。也就是說,使用區間標量得到的變異系數是沒有意義的。
————————————————
