統計學基礎(一):中位數、方差、標准差、均方誤差、估計量、高斯函數、正態分布


一、中位數

  • 定義/解釋:按順序排列的一組數據中居於中間位置的數,即在這組數據中,有一半的數據比他大,有一半的數據比他小

  # 如果觀察值有偶數個,通常取最中間的兩個數值的平均數作為中位數。

二、方差

 1)定義

   方差(variance):是在概率論和統計方差衡量隨機變量或一組數據時離散程度的度量

 

 2)應用

  1、在統計描述中
  • 方差用來計算每一個變量(觀察值)與總體均數之間的差異
  • 在許多實際問題中,研究方差即偏離程度有着重要意義
  • 為避免出現離均差(X - )總和為零,離均差平方和受樣本含量的影響,統計學采用平均離均差平方和來描述變量的變異程度
  • 總體方差計算公式:
  1. :總體方差
  2. :變量
  3. :總體均值
  4. :總體例數
  • 實際工作中,總體均數難以得到時,應用樣本統計量代替總體參數,經校正后,樣本方差計算公式:S2 = ∑(X - )2 / (n - 1) 
  1. S2:樣本方差
  2. X:變量
  3. :為樣本均值
  4. n:樣本例數。

  

  2、在概率分布中
  • 在概率分布中,設X是一個離散型隨機變量,若E{[X - E(X)]2}存在,則稱E{[X - E(X)]2}為X的方差,記為D(X),Var(X)或DX,其中E(X)是X的期望值,X是變量值,公式中的E是期望值expected value的縮寫,意為“變量值與其期望值之差的平方和”的期望值。
  • 離散型隨機變量方差計算公式:D(X)=E{[X - E(X)]2} = E(X2) - [E(X)]2
  1. 當D(X) = E{[X-E(X)]2}稱為變量X的方差,而  稱為標准差(或均方差)。它與X有相同的量綱。標准差是用來衡量一組數據的離散程度的統計量 
  2. 對於連續型隨機變量X,若其定義域為(a, b),概率密度函數為f(x),連續型隨機變量X方差計算公式:D(X) =   (x - μ)2 * f(x)dx,方差刻畫了隨機變量的取值對於其數學期望的離散程度。(標准差、方差越大,離散程度越大),若X的取值比較集中,則方差D(X)較小,若X的取值比較分散,則方差D(X)較大。因此,D(X)是刻畫X取值分散程度的一個量,它是衡量取值分散程度的一個尺度。 

 

三、標准差

 # 參考百科:標准差

 1)定義

  • 標准差(Standard Deviation)又常稱均方差,是方差的算術平方根,反映一個數據集的離散程度

 2)應用

  • 概率統計中:最常使用作為統計分布程度(statistical dispersion)上的測量。
  • 標准差定義是總體各單位標准值與其平均數離差平方的算術平均數的平方根。它反映組內個體間的離散程度
  • 測量到分布程度的結果,原則上具有兩種性質
  1. 為非負數值, 與測量資料具有相同單位
  2. 一個總量的標准差或一個隨機變量的標准差,及一個子集合樣品數的標准差之間,有所差別。
  • 公式:
  1. 假設有一組數值X₁,X₂,X₃,......Xn(皆為實數),其平均值算術平均值)為μ
  2. 標准差也被稱為標准偏差,或者實驗標准差,公式:  

 

 3)其它

  • 簡單來說,標准差是一組數據平均值分散程度的一種度量。一個較大的標准差,代表大部分數值和其平均值之間差異較大;一個較小的標准差,代表這些數值較接近平均值
  •             

 

 

四、均方誤差

 1)定義

  • 均方誤差(mean-square error, MSE)是反映估計量與被估計量之間差異程度的一種度量。
  • 設t是根據子樣確定的總體參數θ的一個估計量,(θ-t)2的數學期望,稱為估計量t的均方誤差。它等於σ2+b2,其中σ2與b分別是t的方差偏倚

 

 2)名詞介紹

  • 相合估計(或一致估計)是在大樣本下評價估計量的標准,在樣本量不是很多時,人們更加傾向於基於小樣本的評價標准,此時,對無偏估計使用方差,對有偏估計使用均方誤差。
  • 一般地,在樣本量一定時,評價一個點估計的好壞標准使用的指標總是點估計    與參數真值   的距離的函數,最常用的函數是距離的平方,由於估計量    具有隨機性,可以對該函數求期望,這就是下式給出的均方誤差:

 

  • 均方誤差是評價點估計的最一般的標准,自然,我們希望估計的均方誤差越小越好,注意到
  1. 上式說明,均方誤差    由點估計的方差    與偏差    的平方兩部分組成。
  2. 如果   是 θ 的無偏估計,則   ,此時用均方誤差評價點估計與用方差是完全一致的,這也說明了用方差考察無偏估計是合理的。
  3. 當  不是 θ 的無偏估計,就要看其均方誤差    ,即不僅看方差大小,還要看其偏差大小,下面的例子說明在均方誤差的含義下,有些有偏估計優於無偏估計。

 

 3)一致性最小的均方誤差估計

  • 定義1
  1. 設有樣本    對待估參數 θ,有一個估計類,稱  是該類中θ的一致最小均方誤差估計,如果對該類估計中另外任意一個θ的估計   ,在參數空間   上都有 
  • 使用情況:
  1. 一致最小均方誤差估計通常是在一個確定的估計類中進行的,一致最小均方誤差估計一般是不存在的。
  2. 既然一致最小均方誤差估計一般是不存在的,人們通常就對估計提出一些合理性要求,如無偏性就是一個常見的合理性要求。 
  • 一致最小方差無偏估計前面曾指出,均方誤差    由點估計的方差    與偏差    的平方兩部分組成,當    是 θ 的無偏估計時,均方誤差就簡化為方差,此時一致最小均方誤差估計就是一致最小方差無偏估計。
 
  • 定義2 :
  1. 設    是 θ 的無偏估計,如果對於任意一個θ的無偏估計    ,在參數空間    上都有  則稱    是 θ 的一致最小方差無偏估計,簡記為UMVUE。 

 

 

五、估計量

 1)定義

  • 用來估計總體未知參數用的統計量
  • 統計學中,估計量是基於觀測數據計算一個已知量的估計值的法則:於是估計量(estimator)、被估量(estimand)和估計值(estimate)是有區別的。
  • 估計值:當經測定的具體數值代入估計量時,它就是一個具體的數值,稱為估計值,英文是estimator。

 

 2)舉例

  • 設(X1,……,Xn)為來自總體X的樣本,(X1,……,Xn)為相應的樣本值,θ是總體分布的未知參數,θ∈Θ。
  • Θ 表示 θ 的取值范圍,稱 Θ 為參數空間。盡管 θ 是未知的,但它的參數空間 Θ 是事先知道的,為了估計未知參數θ,我們構造一個統計量 h(X1,……,Xn),然后用 h(X1,……,Xn) 的值 h(X1,……,Xn) 來估計θ的真值,稱h(X1,……,Xn)為θ的估計量。

 

  •  假設存在一個固定的待估參數。那么"估計量"是 樣本空間映射到 樣本估計值的一個函數。  的一個估計量記為   。很容易用隨機變量的代數來闡述這個理論:因而如果用 X來標記對應觀測數據的 隨機變量,估計量(本身視為隨機變量)的符號表示為該隨機變量的函數,  。對特定觀測數據集(即對於 X= x)的估計值為一固定值  。通常使用簡化標記,用   表示隨機變量,不過這會造成誤解。

 

  • 個人理解:
  1. 目的:估計總體數據集 X 的分布情況,即 θ;
  2. 方法:從總體數據集 X 中抽取一組樣本 h,根據 h 的分布以及 θ 的取值范圍 Θ 來估計總體數據集 X 的分布情況 θ。

 

 3)誤差

  • 對於一個給定樣本x,估計量   的"誤差"定義為  其中    是待估參數。
  • 注意誤差e不僅取決於估計量(估計公式或過程),還取決於樣本。

 

 4)均方誤差

  • 估計量    的均方誤差被定義為誤差的平方的期望值,即為: 。
  • 它用來顯示估計值的集合與被估計單個參數的平均差異。試想下面的類比:假設“參數”是靶子的靶心,“估計量”是向靶子射箭的過程,而每一支箭則是“估計值”(樣本)。那么,高均方誤差就意味着每一支箭離靶心的平均距離較大,低均方誤差則意味着每一支箭離靶心的平均距離較小。箭支可能集聚,也可能不。比如說,即使所有箭支都射中了同一個點,同時卻嚴重偏離了靶子,均方誤差相對來說依然很大。然而要注意的是,如果均方誤差相對較小,箭支則更有可能集聚(而不是離散)。

 

 5)一致性

  • 一致估計量序列是一列隨着序號(通常是樣本容量)無限增大時依概率收斂於被估量的估計量序列。換句話說,增加樣本容量增大了估計量接近總體參數的概率。 
  • 在數學上,一個估計量序列 {tn;n≥ 0} 是參數 θ 的一致估計量當且僅當對於所有 ϵ > 0,不管多小,我們都有  
  • 就如,一個人不斷地拋硬幣,隨着次數的增多,任何一面出現的概率(機率)就會趨於0.5。那么這個0.5就是這個拋硬幣事件中任何一面出現概率的一致估計量,或者說一致估計值。

 

 

六、高斯函數、正態分布

 1)定義

  • 格式
  1. abc實數常數,且a> 0;
  2. c= 2的高斯函數是傅立葉變換特征函數。這就意味着高斯函數的傅立葉變換不僅僅是另一個高斯函數,而且是進行傅立葉變換的函數的標量倍。

 

 2)積分

  • 任意高斯函數的積分是:
  • 另一種形式是:
  • 其中 必須是嚴格積分的積分收斂;

 

 3)正態分布

  • 公式:正態分布公式

 

  • 定理:

  • 由於一般的正態總體其圖像不一定關於y 軸對稱,對於任一正態總體,其取值小於x的概率。只要會用它求正態總體在某個特定區間的概率即可。
    為了便於描述和應用,常將正態變量作數據轉換。將一般正態分布轉化成標准正態分布。
    若 
    服從標准正態分布,通過查標准正態分布表就可以直接計算出原正態分布的概率值。故該變換被稱為標准化變換。(標准正態分布表:標准正態分布表中列出了標准正態曲線下從-∞到X(當前值)范圍內的面積比例。)
  • 定義:

  • 隨機變量  服從一個位置參數為  、尺度參數為  的概率分布,且其概率密度函數為 ,則這個隨機變量就稱為正態隨機變量,正態隨機變量服從的分布就稱為正態分布,記作  ,讀作  服從 ,或  服從正態分布。
  • μ維隨機向量具有類似的概率規律時,稱此隨機向量遵從多維正態分布。多元正態分布有很好的性質,例如,多元正態分布的邊緣分布仍為正態分布,它經任何線性變換得到的隨機向量仍為多維正態分布,特別它的線性組合為一元正態分布。
  • 標准正態分布:當  時,正態分布就成為標准正態分布

 

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM