統計推斷(statistical inference),在計算機科學中也被稱為“機器學習”,是使用數據推斷生成數據分布的過程
一個經典的統計推斷問題是:給一個樣本(\(\sim\)意味X_1,...,X_n獨立且相互都有相同的邊緣分布函數,即是來自F簡單隨機樣本)\(X_1,...,X_n \sim F\),如何推斷\(F?\)
概率論與統計推斷
概率論基礎
多變量分布與獨立同分布樣本
令\(X=(X_1,...X_n)\),其中\(X_1,...X_n\)均為隨機變量。這時,我們稱\(X\)為一個隨機向量(random vector)。
如果\(X_1,...,X_n\)獨立且相互都有相同的邊緣分布函數\(F\),我們稱\(X_1,...X_n\)是獨立同分布(IID, independent and identically distributed)的,同時使用如下記號表示:
如果分布\(F\)有密度函數\(f\)我們也寫作\(X_1,...,X_n \sim f\)。我們也稱\(X_1,...,X_n\)是來自\(F\)的大小為\(n\)的隨機樣本(注,國內一般稱之為簡單隨機樣本)。
此時由於獨立性,
獨立同分布(IID, independent and identically distributed)樣本具有相互獨立且相同的多變量分布。
大部分統計推斷理論和應用都是以獨立同分布(IID)觀測量為基礎的。
Chernoff Bound
一個可能的解釋:Hoeffding 不等式是 Chernoff 界的推廣,后者適用於 Bernoulli 隨機變量,主要用於學習理論中(基於Wikipedia)。
另一個可能的解釋:在學習理論(learning theory)中被稱為Chernoff Bound,兩者等價(基於CMU Eric Xing的ppt)
這兩者的關系有一定考究的價值,在此不詳談
Chernoff 界在計算學習理論中用於證明學習算法可能近似正確,即該算法在足夠大的訓練數據集上具有很小的誤差的概率很高。因為其定義使用了獨立同分布樣本。
矩母函數(Moment Generating Function)
\(e^x\)的麥克勞林公式定義為
關於隨機變量X的矩母函數,或者拉普拉斯變換,被定義為
t的取值范圍為實數。
對t求導,從而可知
此處t取0.這是用導數方法的的出來的結論。而將\(e^x\)化為泰勒級數,可得
有同樣結果。拉普拉斯變換最玄妙之處在於其與泰勒級數的關系。
只有在項中存在為\({t^n}\)才能n次求導到非0項,過大因為t=0的緣故亦為0.
馬爾可夫不等式(Markov's inequality)
令X是一個非負隨機變量並且E(X)存在,則對於任意t>0,有
證明:
因為隨機變量X>0,
切比雪夫不等式(Chebyshev's inequality)
證明:
使用馬爾可夫不等式:
霍夫丁不等式(Hoeffding's inequality),切爾諾夫界(Chernoff bound)
霍夫丁不等式與馬爾可夫不等式有共通之處,但霍夫丁不等式是一個更sharper的不等式。
\(\epsilon\)為常值epsilon符號。
霍夫丁不等式:
另一個結論:
例子
令\(X_1,...,X_n \sim B(p)\),即是來自\(B(p)\)的簡單隨機樣本.令\(n=100\)且\(\epsilon=0.2\)。
我們使用切比雪夫不等式做第一次估計,因為切比雪夫本質上是Markov的變形,且使用方差而不是期望的性質,使得可以用於\(B(p)\)的估計。
可見,霍夫丁不等式更加sharper,n不斷增大,霍夫丁不等式的減小速率更快且具有通用性。
證明
矩母函數的兩個定理
\(Theorem 4.2:\)
令X和Y為兩個隨機變量,如果
在所有\(t \in (-\delta, \delta)(\delta > 0)\)上都成立,那么\(X\)和\(Y\)具有相同的分布。
\(Theorem 4.3:\)
令X和Y為兩個獨立隨機變量,那么\(M_{X+Y}(t)=M_X(t)M_Y(t)\).
證明:
\(M_{X+Y}(t)=E[e^{t(X+Y)}]=E[e^{tX}e^{tY}]=E[e^{tX}]E[e^{tY}]=M_X(t)M_Y(t)\)
\(由於獨立性,可得E[e^{tX}e^{tY}]=E[e^{tX}]E[e^{tY}]\)
切爾諾夫界的證明
應用Markov不等式:
對於任意\(t>0\),
特別地,
相似地有對任意\(t<0\),
關鍵是最小化\(\frac{E[e^{tX}]}{e^{ta}}\)的\(t\)值。
Partial Reference
- https://www.statlect.com/
- https://towardsdatascience.com/the-poisson-distribution-and-poisson-process-explained-4e2cb17d459
ChangeLog
- 11月01日 19:38 寫了第一部分。
- 11月03日 22:00 補充Reference和前面的部分。有一點困明天再寫。明天要寫Chernoff界相關內容,不可避免引入Markov不等式等概念。
- 11月07日 21:32 后面繼續補充霍夫丁不等式和數理統計內容。有時間再寫吧。
- 11月08日 19:51 書不在旁邊明天再寫吧。
- 11月12日 16:39 霍夫丁不等式補充了一點。晚上寫完這部分。
- 12月1日 15:42 切爾諾夫界需要繼續補充。等我仔細研讀后再寫。估計要將所有分布的屬性要解釋一遍。