經驗分布函數簡介


1 概念

如果我們想知道某個隨機變量\(X\)的分布\(F\),這在一般情況下當然是無法准確知道的,但如果我們手上有它的一些獨立同分布的樣本,可不可以利用這些樣本?一個很簡單的辦法就是,把這些樣本的“頻率”近似為隨機變量的“概率”。

經驗分布函數empirical distribution function):給每個點\(1/n\)的概率質量,得到CDF:

\[\hat{F}_n(x) = \dfrac{\sum_{i=1}^{n}I(X_i\leq x)}{n} \]

2 性質

經驗分布函數,有什么性質?它可以很好地近似真實的分布函數嗎?我們給出如下幾個定理。

定理:對於任意給定的\(x\),有

  • \(E(\hat{F}_n(x) )=F(x)\)
  • \(V(\hat{F}_n(x) )=\dfrac{F(x)(1-F(x))}{n}\to 0\)
  • \(\text{MSE} = \dfrac{F(x)(1-F(x))}{n}\to 0\)
  • \(\hat{F}_n(x)\stackrel{P}{\longrightarrow}F(x)\)

Glivenko-Cantelli定理\(X_1,\ldots,X_n\sim F\),那么

\[\sup_x |\hat{F}_n(x)-F(x)|\stackrel{P}{\longrightarrow}0 \]

更准確地說,上式其實是幾乎必然收斂的。

Dvoretzky-Kiefer-Wolfowitz (DKW) Inequity\(X_1,\ldots,X_n\sim F\),那么\(\forall \epsilon\gt 0\),有

\[P\left(\sup_x |\hat{F}_n(x)-F(x)|\gt \epsilon\right) \leq 2e^{-2n\epsilon^2} \]

利用DKW不等式,可以構造出\(F\)的非參數的\(1-\alpha\)置信帶:定義\(L(x)=\max\left\{\hat{F}_n(x)-\epsilon_n,0\right\}\)\(U(x)=\max\left\{\hat{F}_n(x)+\epsilon_n,0\right\}\),其中\(\epsilon_n=\sqrt{\dfrac{1}{2n}\log(\dfrac{2}{\alpha})}\),那么有

\[P[L(x)\leq F(x)\leq U(x),\forall x] \geq 1-\alpha \]

3 應用

經驗分布函數有什么用?它可以用來計算一些statistical functional(統計泛函)。

假設要計算的statistical functional為\(T(F)\),那么,可以利用經驗分布函數,代替未知的分布函數,計算出\(\theta=T(F)\)plug-in estimator(嵌入式估計量):\(\hat\theta=T(\hat{F}_n)\)

如果存在某個\(r(x)\)使得\(T(F)=\int r(x) dF(x)\),那么\(T\)就稱為linear functional(線性泛函),這是因為這樣的\(T\)必定滿足\(T(aF+bG)=aT(F)+bT(G)\)。對於這樣的linear functional \(T(F)\),它的plug-in estimator可以寫為:

\[T(\hat{F}_n)=\int r(x)d \hat{F}_n=\dfrac{1}{n}\sum_{i=1}^{n}r(X_i) \]


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM