為什么將樣本方差除以N-1?


偶然間發現了一個博客,講了一些數學基礎知識————方差、協方差等。為防止半途而廢,在此翻譯,水平不足,盡量做好!
原文:https://www.visiondummy.com/2014/03/divide-variance-n-1/

前言

在本文中,我們將推導計算正態分布數據的均值和方差的著名公式,以回答文章標題中的問題。然而,對於那些對這個問題的“為什么”不感興趣,而只對“何時”感興趣的讀者來說,答案很簡單:
如果必須同時估計數據的平均值和方差(通常情況下),則除以N-1,得出方差為:

另一方面,如果真實總體的均值已知,只需要估計方差,則除以 N,得到方差為:

前者是您通常需要的,后者的一個例子是高斯白噪聲分布的估計。由於已知高斯白噪聲的平均值為零,因此在這種情況下只需估計方差。
如果數據是正態分布的,我們可以完全用它的均值image和方差image來描述它。方差是標准偏差image的平方,代表每個數據點與平均值的平均偏差。換句話說,方差表示數據的離散。對於正態分布數據,68.3%的觀測值介於imageimage之間。下圖顯示了具有均值image和方差image的高斯密度函數:




圖表1 高斯密度函數。對於正態分布的數據,68% 的樣本落在平均值加減標准差定義的區間內

通常我們無法訪問全部數據。在上面的例子中,我們通常會有一些觀察結果供我們使用,但我們無法訪問定義繪圖x軸的所有可能觀察結果。例如,我們可能有以下一組觀察結果:
表格1

觀察ID 觀察值
觀察1 10
觀察2 12
觀察3 7
觀察4 5
觀察5 11

如果我們現在通過將所有值相加並除以觀察次數來計算經驗平均值,我們有:

\tag{1}

通常我們假設經驗平均值接近分布的實際未知平均值,因此假設觀測數據是從具有平均值image的高斯分布中采樣的。在本例中,分布的實際平均值為10,因此經驗平均值確實接近實際平均值。
數據的方差計算如下:

\tag{2}

同樣,我們通常假設這種經驗方差接近於潛在分布的真實和未知方差。在本例中,實際方差為9,因此經驗方差確實接近實際方差。現在的問題是,為什么用於計算經驗平均值和經驗方差的公式是正確的。事實上,計算方差的另一個常用公式定義如下:
現在的問題是為什么用於計算經驗均值和經驗方差的公式是正確的。事實上,另一個常用的計算方差的公式,定義如下:
image \tag{3}


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM