估計、偏差和方差


1.點估計

  令 {x (1) ,...,x (m) } 是 m 個獨立同分布(i.i.d.)的數據點。點估計(point esti-mator)或統計量(statistics)是這些數據的任意函數:

   

    良好的估計量的輸出會接近生成訓練數據的真實參數 θ

  點估計也可以指輸入和目標變量之間關系的估計。我們將這種類型的點估計稱為函數估計

2.偏差

  估計的偏差被定義為:

    

    其中期望作用在所有數據(看作是從隨機變量采樣得到的)上,θ 是用於定義數據生成分布的 θ 的真實值

    如果 bias( ˆ θ m ) = 0,那么估計量ˆθ m 被稱為是無偏(unbiased),這意味着 E( ˆ θ m ) = θ。

    如果 lim m→∞ bias( ˆ θ m ) = 0,那么估計量ˆθ m 被稱為是漸近無偏(asymptotically unbiased),這意味着 lim m→∞ E( ˆ θ m ) = θ

3.方差和標准差

  估計量的方差(variance)就是一個方差

     

  方差的平方根被稱為標准差(standard error),記作SE( ˆ θ)

  均值的標准差被記作

    

  均值 ˆ µ m 為中心的 95% 置信區間是

    

    算法 A 比算法 B 好,是指算法 A 的誤差的 95% 置信區間的上界小於算法 B的誤差的 95% 置信區間的下界

  均方誤差

    

 

4.一致性 

  數據點的數量 m 增加時,點估計會收斂到對應參數的真實值

    

    符號 plim 表示依概率收斂,即對於任意的 ϵ > 0,當 m → ∞ 時,有 P(| ˆ θ m − θ| >ϵ) → 0

  幾乎必然收斂(almost sureconvergence)是指當 p(lim m→∞ x (m) = x) = 1 時,隨機變量序列 x (1) ,x (2) ,... 收斂到 x

  一致性保證了估計量的偏差會隨數據樣本數目的增多而減少


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM