//我們先來看一下幾個名詞基本解釋.
1.標准差(Standard deviation)

2.方差.
PS:兩人的5次測驗成績如下:
A:50,100,100,60,50 -->Average(A) = 72
B:73,70,75,72,70 -->Average(B) = 72
平均成績相同,但A不穩定,對平均值偏大.
方差描述隨機變量對於數學期望的偏離程度.
方差公式:
PS:可以看到方差是標准差的平方.
3.MAD(Median absolute deviation)絕對中位值.
中位數:統計學名詞,是指將統計總體中的各個變量值按大小順序排列起來形成一個數列,處於變量數列中間位置的變量值就稱為中位數.
MAD:就是先求出給定數據的中位數(注意並非均值)然后原數列的每個值與這個中位數求出絕對差,然后新數列的中位值就是MAD
PS:
數據A:8,5,9,6,3,2,4,9 2,3,4,5,6,8,9
中位數 = 5
A - 5 = 3,0,4,1,2,3,1,4 0,1,1,2,3,3,4
MAD = 2.
//下面文章作者來自Vamei.
除了期望,方差(variance)是另一個常見的分布描述量。如果說期望表示的是分布的中心位置,那么方差就是分布的離散程度。方差越大,說明隨機變量取值越離散。
比如射箭時,一個優秀的選手能保持自己的弓箭集中於目標點附近,而一個經驗不足的選手,他弓箭的落點會更容易散落許多地方。
上面的靶上有兩套落點。盡管兩套落點的平均中心位置都在原點 (即期望相同),但兩套落點的離散程度明顯有區別。藍色的點離散程度更小。
數學上,我們用方差來代表一組數據或者某個概率分布的離散程度。可見,方差是獨立於期望的另一個對分布的度量。兩個分布,完全可能有相同的期望,而方差不同,正如我們上面的箭靶。
方差
對於一個隨機變量XX來說,它的方差為:
其中,μμ表示XX的期望值,即μ=E(X)μ=E(X)。
我們可以代入期望的數學表達形式。比如連續隨機變量:
方差概念背后的邏輯很簡單。一個取值與期望值的“距離”用兩者差的平方表示。該平方值表示取值與分布中心的偏差程度。平方的最小取值為0。當取值與期望值相同時,此時不離散,平方為0,即“距離”最小;當隨機變量偏離期望值時,平方增大。由於取值是隨機的,不同取值的概率不同,我們根據概率對該平方進行加權平均,也就獲得整體的離散程度——方差。
方差的平方根稱為標准差(standard deviation, 簡寫std)。我們常用σσ表示標准差
標准差也表示分布的離散程度。
正態分布的方差
根據上面的定義,可以算出正態分布
的方差為
正態分布的標准差正等於正態分布中的參數σσ。這正是我們使用字母σσ來表示標准差的原因!
可以預期到,正態分布的σσ越大,分布離散越大,正如我們從下面的分布曲線中看到的:
當方差小時,曲線下的面積更加集中於期望值0附近。當方差大時,隨機變量更加離散。此時分布曲線的“尾部”很厚,即使在取值很偏離0時,比如x=4x=4時,依然有很大的概率可以取到。
代碼如下:
# By Vamei from scipy.stats import norm import numpy as np import matplotlib.pyplot as plt # Note the difference in "scale", which is std rv1 = norm(loc=0, scale = 1) rv2 = norm(loc=0, scale = 2) x = np.linspace(-5, 5, 200) plt.fill_between(x, rv1.pdf(x), y2=0.0, color="coral") plt.fill_between(x, rv2.pdf(x), y2=0.0, color="green", alpha = 0.5) plt.plot(x, rv1.pdf(x), color="red", label="N(0,1)") plt.plot(x, rv2.pdf(x), color="blue", label="N(0,2)") plt.legend() plt.grid(True) plt.xlim([-5, 5]) plt.ylim([-0.0, 0.5]) plt.title("normal distribution") plt.xlabel("RV") plt.ylabel("f(x)") plt.show()
指數分布的方差
指數分布的表達式為
它的方差為
如下圖所示:
Chebyshev不等式
我們一直在強調,標准差(和方差)表示分布的離散程度。標准差越大,隨機變量取值偏離平均值的可能性越大。如何定量的說明這一點呢?我們可以計算一個隨機變量與期望偏離超過某個量的可能性。比如偏離超過2個標准差的可能性。即
這個概率依賴於分布本身的類型。比如正態分布N(0,1)N(0,1),這一概率即為x大於2,或者x小於-2的部分對應的曲線下面積:
實際上,無論μμ和σσ如何取值,對於正態分布來說,偏離期望超過兩個標准差的概率都相同,約等於0.0455 (可以根據正態分布的表達式計算)。隨機變量的取值有約95.545%的可能性落在正負兩個標准差的區間內,即從-2到2。如果我們放大區間,比如正負三個標准差,這一概率超過99%。我們可以相當有把握的說,隨機變量會落正負三個標准差之內。上面的論述並不依賴於標准差的具體值。這里可以看到標准差所衡量的“離散”的真正含義:如果取相同概率的極端值區間,比如上面的0.0455,標准差越大,該極端值區間距離中心值越遠。
然而,上面的計算和表述依賴於分布的類型(正態分布)。如何將相似的方差含義套用在其它隨機變量身上呢?
Chebyshev不等式讓我們擺脫了對分布類型的依賴。它的敘述如下:
對於任意隨機變量X,如果它的期望為μμ,方差為σ2σ2,那么對於任意t>0t>0,
無論X是什么分布,上述不等式成立。我們讓t=2σt=2σ,那么
也就是說,X的取值超過兩個正負標准差的可能性最多為25%。換句話說,隨機變量至少有75%的概率落在正負兩個標准差的范圍內。(顯然這是最“壞”的情況下。正態分布顯然不是”最壞“的)
繪圖代碼如下
from scipy.stats import norm import numpy as np import matplotlib.pyplot as plt # Note the difference in "scale", which is std rv1 = norm(loc=0, scale = 1) x1 = np.linspace(-5, -1, 100) x2 = np.linspace(1, 5, 100) x = np.linspace(-5, 5, 200) plt.fill_between(x1, rv1.pdf(x1), y2=0.0, color="coral") plt.fill_between(x2, rv1.pdf(x2), y2=0.0, color="coral") plt.plot(x, rv1.pdf(x), color="black", linewidth=2.0, label="N(0,1)") plt.legend() plt.grid(True) plt.xlim([-5, 5]) plt.ylim([-0.0, 0.5]) plt.title("normal distribution") plt.xlabel("RV") plt.ylabel("f(x)") plt.show()
總結
我們引入了一個新的分布描述量:方差-->它用於表示分布的離散程度.
標准差為方差的平方根!!!
方差越大,“極端區間”偏離中心越遠!!!