偶然間發現了一個博客,講了一些數學基礎知識————方差、協方差等。為防止半途而廢,在此翻譯,水平不足,盡量做好!
原文:https://www.visiondummy.com/2014/03/divide-variance-n-1/
前言
在本文中,我們將推導計算正態分布數據的均值和方差的著名公式,以回答文章標題中的問題。然而,對於那些對這個問題的“為什么”不感興趣,而只對“何時”感興趣的讀者來說,答案很簡單:
如果必須同時估計數據的平均值和方差(通常情況下),則除以N-1,得出方差為:
前者是您通常需要的,后者的一個例子是高斯白噪聲分布的估計。由於已知高斯白噪聲的平均值為零,因此在這種情況下只需估計方差。
如果數據是正態分布的,我們可以完全用它的均值和方差
來描述它。方差是標准偏差
的平方,代表每個數據點與平均值的平均偏差。換句話說,方差表示數據的離散。對於正態分布數據,68.3%的觀測值介於
和
之間。下圖顯示了具有均值
和方差
的高斯密度函數:
圖表1 高斯密度函數。對於正態分布的數據,68% 的樣本落在平均值加減標准差定義的區間內
通常我們無法訪問全部數據。在上面的例子中,我們通常會有一些觀察結果供我們使用,但我們無法訪問定義繪圖x軸的所有可能觀察結果。例如,我們可能有以下一組觀察結果:
表格1
觀察ID | 觀察值 |
---|---|
觀察1 | 10 |
觀察2 | 12 |
觀察3 | 7 |
觀察4 | 5 |
觀察5 | 11 |
如果我們現在通過將所有值相加並除以觀察次數來計算經驗平均值,我們有:
\tag{1}
通常我們假設經驗平均值接近分布的實際未知平均值,因此假設觀測數據是從具有平均值的高斯分布中采樣的。在本例中,分布的實際平均值為10,因此經驗平均值確實接近實際平均值。
數據的方差計算如下:
\tag{2}
同樣,我們通常假設這種經驗方差接近於潛在分布的真實和未知方差。在本例中,實際方差為9,因此經驗方差確實接近實際方差。現在的問題是,為什么用於計算經驗平均值和經驗方差的公式是正確的。事實上,計算方差的另一個常用公式定義如下:
現在的問題是為什么用於計算經驗均值和經驗方差的公式是正確的。事實上,另一個常用的計算方差的公式,定義如下:
\tag{3}