概率論與統計推斷(機器學習)


統計推斷(statistical inference),在計算機科學中也被稱為“機器學習”,是使用數據推斷生成數據分布的過程
一個經典的統計推斷問題是:給一個樣本(\(\sim\)意味X_1,...,X_n獨立且相互都有相同的邊緣分布函數,即是來自F簡單隨機樣本)\(X_1,...,X_n \sim F\),如何推斷\(F?\)

概率論與統計推斷

概率論基礎

多變量分布與獨立同分布樣本

\(X=(X_1,...X_n)\),其中\(X_1,...X_n\)均為隨機變量。這時,我們稱\(X\)為一個隨機向量(random vector)。
如果\(X_1,...,X_n\)獨立且相互都有相同的邊緣分布函數\(F\),我們稱\(X_1,...X_n\)是獨立同分布(IID, independent and identically distributed)的,同時使用如下記號表示:

\[X_1,...,X_n \sim F \]

如果分布\(F\)有密度函數\(f\)我們也寫作\(X_1,...,X_n \sim f\)。我們也稱\(X_1,...,X_n\)是來自\(F\)的大小為\(n\)的隨機樣本(注,國內一般稱之為簡單隨機樣本)。

此時由於獨立性,

\[P(X_1\in A_1, ..., X_n\in A_n) = \prod_{i=1}^{n} P(X_i\in A_i),等價於f(x_1,...,x_n)=\prod_{i=1}^{n} f_{X_i}(x_i) \]

獨立同分布(IID, independent and identically distributed)樣本具有相互獨立且相同的多變量分布。
大部分統計推斷理論和應用都是以獨立同分布(IID)觀測量為基礎的。

Chernoff Bound

一個可能的解釋:Hoeffding 不等式是 Chernoff 界的推廣,后者適用於 Bernoulli 隨機變量,主要用於學習理論中(基於Wikipedia)。
另一個可能的解釋:在學習理論(learning theory)中被稱為Chernoff Bound,兩者等價(基於CMU Eric Xing的ppt)
這兩者的關系有一定考究的價值,在此不詳談

Chernoff 界在計算學習理論中用於證明學習算法可能近似正確,即該算法在足夠大的訓練數據集上具有很小的誤差的概率很高。因為其定義使用了獨立同分布樣本。

矩母函數(Moment Generating Function)

\(e^x\)的麥克勞林公式定義為

\[e^x = \sum_{n=0}^{\infty}\frac{x^n}{n!} \]

關於隨機變量X的矩母函數,或者拉普拉斯變換,被定義為

\[M_X(t) = E(e^{tX}) = \int e^{tx}dF(x) \]

t的取值范圍為實數。

對t求導,從而可知

\[M_X^{(n)}(0) = E(e^{tX})^{(n)}|_{t=0} = E(X^ne^{{(tX)}^n})|_{t=0} = E(X^n) \]

此處t取0.這是用導數方法的的出來的結論。而將\(e^x\)化為泰勒級數,可得

\[M_X^{(n)}(0) = E(e^{tX})^{(n)}|_{t=0} = E(\sum_{n=0}^{\infty}\frac{{(tX)}^n}{n!})^{(n)}|_{t=0} = E(X^n) \]

有同樣結果。拉普拉斯變換最玄妙之處在於其與泰勒級數的關系。

只有在項中存在為\({t^n}\)才能n次求導到非0項,過大因為t=0的緣故亦為0.

馬爾可夫不等式(Markov's inequality)

令X是一個非負隨機變量並且E(X)存在,則對於任意t>0,有

\[P(X>t) \le \frac{E(X)}{t} \]

證明:
因為隨機變量X>0,

\[E(X) = \int_{0}^{\infty}xf(x)dx = \int_{0}^{t}xf(x)dx + \int_{t}^{\infty}xf(x)dx \ge \int_{t}^{\infty}xf(x)dx \ge t\int_{t}^{\infty}f(x)dx = tP(X>t) \]

切比雪夫不等式(Chebyshev's inequality)

證明:
使用馬爾可夫不等式:

\[P(|X-\mu| \ge t) = P({|X-\mu|}^2 \ge t^2) \le \frac{E(X-\mu)^2}{t^2} = \frac{\sigma^2}{t^2} \]

霍夫丁不等式(Hoeffding's inequality),切爾諾夫界(Chernoff bound)

霍夫丁不等式與馬爾可夫不等式有共通之處,但霍夫丁不等式是一個更sharper的不等式。
\(\epsilon\)為常值epsilon符號。
霍夫丁不等式:

\[令Y_1,...,Y_n是獨立觀測值,使得E(Y_i)=0且a_i \le Y_i \le b_i.令\epsilon > 0, 那么,對任意t>0: \]

\[P(\sum_{i=1}^{n}Y_i \ge \epsilon) \le e^{-t\epsilon}\prod_{i=1}^{n}e^{t^2{(b_i-a_i)}^2/8} \]

另一個結論:

\[令X_1,...,X_n \sim B(p).那么, 對任意\epsilon > 0, \]

\[P(|\overline{X}_n-p|>\epsilon) \le 2e^{-2n{\epsilon}^2} \]

\[這里\overline{X}_n=\frac{\sum_{i=1}^{n}X_i}{n} \]

例子

\(X_1,...,X_n \sim B(p)\),即是來自\(B(p)\)的簡單隨機樣本.令\(n=100\)\(\epsilon=0.2\)

我們使用切比雪夫不等式做第一次估計,因為切比雪夫本質上是Markov的變形,且使用方差而不是期望的性質,使得可以用於\(B(p)\)的估計。

\[P(|\overline{X}_n-p|>0.2) \le \frac{p(1-p)}{n{\epsilon}^2} \le \frac{1}{4n{\epsilon}^2} = 0.0625 \]

\[P(|\overline{X}_n-p|>0.2) \le 2e^{-2(100)(0.2^2)} = 0.00067 \]

可見,霍夫丁不等式更加sharper,n不斷增大,霍夫丁不等式的減小速率更快且具有通用性。

證明
矩母函數的兩個定理

\(Theorem 4.2:\)
令X和Y為兩個隨機變量,如果

\[M_X(t)=M_Y(t) \]

在所有\(t \in (-\delta, \delta)(\delta > 0)\)上都成立,那么\(X\)\(Y\)具有相同的分布。

\(Theorem 4.3:\)
令X和Y為兩個獨立隨機變量,那么\(M_{X+Y}(t)=M_X(t)M_Y(t)\).

證明:
\(M_{X+Y}(t)=E[e^{t(X+Y)}]=E[e^{tX}e^{tY}]=E[e^{tX}]E[e^{tY}]=M_X(t)M_Y(t)\)
\(由於獨立性,可得E[e^{tX}e^{tY}]=E[e^{tX}]E[e^{tY}]\)

切爾諾夫界的證明

應用Markov不等式:
對於任意\(t>0\)

\[P(X \ge a) = P(e^{tX} \ge e^{ta}) \le \frac{E[e^{tX}]}{e^{ta}} \]

特別地,

\[P(X \ge a) \le \min_{t>0}\frac{E[e^{tX}]}{e^{ta}} \]

相似地有對任意\(t<0\)

\[P(X \ge a) \le \min_{t<0}\frac{E[e^{tX}]}{e^{ta}} \]

關鍵是最小化\(\frac{E[e^{tX}]}{e^{ta}}\)\(t\)值。

Partial Reference

ChangeLog

  • 11月01日 19:38 寫了第一部分。
  • 11月03日 22:00 補充Reference和前面的部分。有一點困明天再寫。明天要寫Chernoff界相關內容,不可避免引入Markov不等式等概念。
  • 11月07日 21:32 后面繼續補充霍夫丁不等式和數理統計內容。有時間再寫吧。
  • 11月08日 19:51 書不在旁邊明天再寫吧。
  • 11月12日 16:39 霍夫丁不等式補充了一點。晚上寫完這部分。
  • 12月1日 15:42 切爾諾夫界需要繼續補充。等我仔細研讀后再寫。估計要將所有分布的屬性要解釋一遍。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM