應該要知道的幾個統計學定義.

本文轉載自查看原文 2016-03-24 20:26 12459

//我們先來看一下幾個名詞基本解釋.

1.標准差(Standard deviation)

簡單來說,標准差是一組數值自平均值分散程度的一種測量觀念.一個較大的標准差,代表大部分的數值和其平均值之間差異較大,一個較小的標准差,代表這些數值較接近平均值.

公式:

例如:

兩組數的集合 {0, 5, 9, 14} 和 {5, 6, 8, 9} 其平均值都是7,但第二個集合具有較小的標准差.

標准差可以當作不確定性的一種測量.例如在物理科學中,做重復性測量時,測量數值集合的標准差代表這些測量的精確度.當要決定測量值是否符合預測值,測量值的標准差占有決定性重要角色.如果測量平均值與預測值相差太遠(同時與標准差數值做比較)

則認為測量值與預測值互相矛盾.這很容易理解,因為如果測量值都落在一定數值范圍之外,可以合理推論預測值是否正確.

標准差應用於投資上,可作為量度回報穩定性的指標.標准差數值越大,代表回報遠離過去平均數值,回報較不穩定故風險越高.相反,標准差數值越小,代表回報較為穩定,風險亦較小.

例如:

A,B兩組各有6位學生參加同一次語文測驗,A組的分數為95,85,75,65,55,45　　B組的分數為73,72,71,69,68,67.這兩組的平均數都是70,但A組的標准差為17.078分,B組的標准差為2.160分,說明A組學生之間的差距要比B組學生之間的差距大得多.

2.方差.

PS:兩人的5次測驗成績如下:

A:50,100,100,60,50　　-->Average(A) = 72

B:73,70,75,72,70　　 -->Average(B) = 72

平均成績相同,但A不穩定,對平均值偏大.

方差描述隨機變量對於數學期望的偏離程度.

方差公式:

PS:可以看到方差是標准差的平方.

3.MAD(Median absolute deviation)絕對中位值.

中位數:統計學名詞,是指將統計總體中的各個變量值按大小順序排列起來形成一個數列,處於變量數列中間位置的變量值就稱為中位數.

MAD:就是先求出給定數據的中位數(注意並非均值)然后原數列的每個值與這個中位數求出絕對差,然后新數列的中位值就是MAD

PS:

數據A:8,5,9,6,3,2,4,9　　2,3,4,5,6,8,9

中位數 = 5

A - 5 = 3,0,4,1,2,3,1,4　　0,1,1,2,3,3,4

MAD = 2.

//下面文章作者來自Vamei.

除了期望，方差(variance)是另一個常見的分布描述量。如果說期望表示的是分布的中心位置，那么方差就是分布的離散程度。方差越大，說明隨機變量取值越離散。

比如射箭時，一個優秀的選手能保持自己的弓箭集中於目標點附近，而一個經驗不足的選手，他弓箭的落點會更容易散落許多地方。

上面的靶上有兩套落點。盡管兩套落點的平均中心位置都在原點 (即期望相同），但兩套落點的離散程度明顯有區別。藍色的點離散程度更小。

數學上，我們用方差來代表一組數據或者某個概率分布的離散程度。可見，方差是獨立於期望的另一個對分布的度量。兩個分布，完全可能有相同的期望，而方差不同，正如我們上面的箭靶。

方差

對於一個隨機變量

V a r (X) = E [(X - μ) 2]

其中，

我們可以代入期望的數學表達形式。比如連續隨機變量：

V a r (X) = E [(X - μ) 2] = \int + \infty - \infty (x - μ) 2 f (x) d x

方差概念背后的邏輯很簡單。一個取值與期望值的“距離”用兩者差的平方表示。該平方值表示取值與分布中心的偏差程度。平方的最小取值為0。當取值與期望值相同時，此時不離散，平方為0，即“距離”最小；當隨機變量偏離期望值時，平方增大。由於取值是隨機的，不同取值的概率不同，我們根據概率對該平方進行加權平均，也就獲得整體的離散程度——方差。

方差的平方根稱為標准差(standard deviation, 簡寫std)。我們常用

σ = V a r (X)------\sqrt

標准差也表示分布的離散程度。

正態分布的方差

根據上面的定義，可以算出正態分布

E (X) = 1 σ 2 π--\sqrt \int + \infty - \infty x e - ( x - μ ) 2 / 2 σ 2 d x

的方差為

V a r (X) = σ 2

正態分布的標准差正等於正態分布中的參數

可以預期到，正態分布的

當方差小時，曲線下的面積更加集中於期望值0附近。當方差大時，隨機變量更加離散。此時分布曲線的“尾部”很厚，即使在取值很偏離0時，比如

代碼如下:

# By Vamei

from scipy.stats import norm
import numpy as np
import matplotlib.pyplot as plt

# Note the difference in "scale", which is std
rv1 = norm(loc=0, scale = 1)
rv2 = norm(loc=0, scale = 2)

x = np.linspace(-5, 5, 200)

plt.fill_between(x, rv1.pdf(x), y2=0.0, color="coral")
plt.fill_between(x, rv2.pdf(x), y2=0.0, color="green", alpha = 0.5)

plt.plot(x, rv1.pdf(x), color="red", label="N(0,1)")
plt.plot(x, rv2.pdf(x), color="blue", label="N(0,2)")

plt.legend()
plt.grid(True)

plt.xlim([-5, 5])
plt.ylim([-0.0, 0.5])

plt.title("normal distribution")
plt.xlabel("RV")
plt.ylabel("f(x)")

plt.show()

指數分布的方差

指數分布的表達式為

f (x) = {λ e - λ x 0 i f i f x \geq 0 x < 0

它的方差為

V a r (X) = 1 λ 2

如下圖所示:

Chebyshev不等式

我們一直在強調，標准差(和方差)表示分布的離散程度。標准差越大，隨機變量取值偏離平均值的可能性越大。如何定量的說明這一點呢？我們可以計算一個隨機變量與期望偏離超過某個量的可能性。比如偏離超過2個標准差的可能性。即

P (| X - μ | > 2 σ)

這個概率依賴於分布本身的類型。比如正態分布

實際上，無論

然而，上面的計算和表述依賴於分布的類型（正態分布）。如何將相似的方差含義套用在其它隨機變量身上呢？

Chebyshev不等式讓我們擺脫了對分布類型的依賴。它的敘述如下：

對於任意隨機變量X，如果它的期望為

P (| X - μ | > t) \leq σ 2 t

無論X是什么分布，上述不等式成立。我們讓

P (| X - μ | > 2 σ) \leq 0.25

也就是說，X的取值超過兩個正負標准差的可能性最多為25%。換句話說，隨機變量至少有75%的概率落在正負兩個標准差的范圍內。（顯然這是最“壞”的情況下。正態分布顯然不是”最壞“的）

繪圖代碼如下

from scipy.stats import norm
import numpy as np
import matplotlib.pyplot as plt

# Note the difference in "scale", which is std
rv1 = norm(loc=0, scale = 1)

x1 = np.linspace(-5, -1, 100)
x2 = np.linspace(1, 5, 100)
x  = np.linspace(-5, 5, 200)
plt.fill_between(x1, rv1.pdf(x1), y2=0.0, color="coral")
plt.fill_between(x2, rv1.pdf(x2), y2=0.0, color="coral")
plt.plot(x, rv1.pdf(x), color="black", linewidth=2.0, label="N(0,1)")

plt.legend()
plt.grid(True)

plt.xlim([-5, 5])
plt.ylim([-0.0, 0.5])

plt.title("normal distribution")
plt.xlabel("RV")
plt.ylabel("f(x)")

plt.show()

總結

我們引入了一個新的分布描述量:方差-->它用於表示分布的離散程度.

標准差為方差的平方根!!!

方差越大,“極端區間”偏離中心越遠!!!

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 作為一個Java工程師，你應該要知道SPI機制統計學的基本概念，你知道多少《漫畫統計學》統計學認識統計學的矩（moment）用R理解統計學統計學知識大梳理【統計學】1.導論統計學當中關於變量的分類 Bootstrap 方法。（統計學）