1. 霍夫丁引理
設 $X$ 是均值為 0 的隨機變量,即 $E(X) = 0$,且 $X \in [a,b]$,則對於任意的 $\lambda \in R$ ,可以得到一個關於區間長度 $b-a$ 的不等式
$$E(e^{\lambda X}) \leq exp \left \{ \frac{\lambda ^{2}(b-a)^{2}}{8} \right \}$$
由於隨機變量的期望為 0,所以必定有 $a < 0,b > 0$。
引理證明:
$e^{\lambda X}$ 在區間 $[a,b]$ 上是凹函數,由凹函數(函數凹凸性)的定義可得
$$e^{\lambda X} \leq \frac{b-X}{b-a}e^{\lambda a} + \frac{X-a}{b-a}e^{\lambda b}$$
對不等式兩邊求數學期望有
$$E\left ( e^{\lambda X} \right ) \leq \frac{b-E(X)}{b-a}e^{\lambda a} + \frac{E(X)-a}{b-a}e^{\lambda b}$$
由於 $E(X) = 0$,則
$$E\left ( e^{\lambda X} \right ) \leq \frac{b}{b-a}e^{\lambda a} - \frac{a}{b-a}e^{\lambda b}$$
考察上式不等式右側,代入期望后,右側的表達式只含有未知變量 $\lambda$,結合 $a < 0,b > 0$,有
$$\frac{b}{b-a}e^{\lambda a} - \frac{a}{b-a}e^{\lambda b} > 0$$
$$\frac{b}{b-a}e^{\lambda a} - \frac{a}{b-a}e^{\lambda b} = e^{\lambda a}(\frac{b}{b-a} - \frac{a}{b-a}e^{\lambda (b-a)}) = exp\left \{ \lambda a + ln(\frac{b}{b-a} - \frac{a}{b-a}e^{\lambda (b-a)})\right \}$$
將最復雜的部分進行換元,令 $h=\lambda (b-a),p=\frac{-a}{b-a}$,於是有
$$exp\left \{ \lambda a + ln(\frac{b}{b-a} - \frac{a}{b-a}e^{\lambda (b-a)})\right \} = exp\left \{ -hp + ln( 1-p+pe^{h} ) \right \}$$
考察函數
$$L\left ( h \right ) = -hp + ln( 1-p+pe^{h})$$
利用泰勒公式將其在 $x = 0$ 處展開,得
$$L(h) = L(0) + L^{'}(0)h + \frac{L^{''}(\xi)}{2}h^{2}$$
其中 $\xi$ 處於 0 和 $h$ 之間。對 $L(h)$ 求導得
$$L^{'}(h) = -p + \frac{pe^{h}}{1-p+pe^{h}}$$
$$L^{''}(h) = \frac{pe^{h}(1-p + pe^{h}) - p^{2}e^{2h}}{(1-p+pe^{h})^{2}} = \frac{pe^{h}}{1-p+pe^{h}}(1-\frac{pe^{h}}{1-p+pe^{h}}) = t(1-t) \leq \frac{1}{4}$$
由於 $L(0) = 0$,$L^{'}(0) = 0$,所以
$$L(h) \leq \frac{1}{8}h^{2} = \frac{\lambda ^{2}(b-a)^{2}}{8}$$
所以,最終可以得到
$$E(e^{\lambda X}) \leq exp \left \{ \frac{\lambda ^{2}(b-a)^{2}}{8} \right \}$$
證畢
2. 霍夫丁不等式
設 $S_{n} = \sum_{i=1}^{n}X_{i}$ 是獨立隨機變量 $X_{1},X_{2},...,X_{n}$ 之和,$X_{i} \in [a_{i},b_{i}]$,則對任意的 $t > 0$,以下不等式成立
$$P\left \{ S_{n} -ES_{n} \geq t\right \} = P\left \{ ES_{n} - S_{n} \geq t\right \} \leq exp \left \{ \frac{-2t^{2}}{\sum_{i=1}^{n}(b_{i}-a_{i})^{2}} \right \}$$
證明:
額外引入變量 $s>0$,則
$$P\left \{ S_{n} -ES_{n} \geq t\right \} = P\left \{ s(S_{n} -ES_{n}) \geq st\right \} = P\left \{ e^{s(S_{n} -ES_{n})} \geq e^{st}\right \}$$
由馬爾可夫不等式(參考博客)得
$$P\left \{ e^{s(S_{n} -ES_{n})} \geq e^{st}\right \} \leq \frac{E[e^{s(S_{n} -ES_{n})}]}{e^{st}} = \frac{E[e^{s(\sum_{i=1}^{n}X_{i} - \sum_{i=1}^{n}E(X_{i}))}]}{e^{st}} = \frac{E[e^{s\sum_{i=1}^{n}[X_{i} - E(X_{i})]}]}{e^{st}} = \frac{\prod_{i=1}^{n}E[e^{s[X_{i} - E(X_{i})]}]}{e^{st}}$$
令隨機變量 $Y_{i} = X_{i} - E(X_{i})$,則 $E(Y_{i}) = 0$,我們無法知道 $Y_{i}$ 所在的區間,但是它所在區間的長度為 $b_{i}-a_{i}$,由霍夫丁引理可得
$$e^{-st}\prod_{i=1}^{n}E[e^{s[X_{i} - E(X_{i})]}] \leq e^{-st}\prod_{i=1}^{n}e^{\frac{s^{2}(b_{i}-a_{i})^{2}}{8}} = exp\left \{ -st + \sum_{i=1}^{n}\frac{1}{8}s^{2}(b_{i}-a_{i})^{2} \right \}$$
考察函數
$$g\left ( s \right ) = -st + \sum_{i=1}^{n}\frac{1}{8}s^{2}(b_{i}-a_{i})^{2},s>0$$
求導數有
$$g^{'}(s) = -t + \sum_{i=1}^{n}\frac{1}{4}s(b_{i} - a_{i})^{2}$$
令 $g^{'}(s) = 0$ 得
$$s^{*} = \frac{4t}{\sum_{i=1}^{n}(b_{i}-a_{i})^{2}}$$
$$g(s^{*}) = \frac{-2t^{2}}{\sum_{i=1}^{n}(b_{i}-a_{i})^{2}}$$
因為 $\forall s > 0$,都有不等式成立,因此取右邊關於 $s$ 的二次函數的最小值,有
$$P\left \{ S_{n} -ES_{n} \geq t\right \} \leq exp \left \{ \frac{-2t^{2}}{\sum_{i=1}^{n}(b_{i}-a_{i})^{2}} \right \}$$
證畢
由一般式得到特殊形式:$X_{i} \in [0,1]$,則 $\frac{X_{i}}{n} \in [0,\frac{1}{n}]$,對 $\frac{X_{i}}{n}$ 使用霍夫丁不等式有
$$P\left \{ \sum_{i=1}^{n}\frac{X_{i}}{n} -E(\sum_{i=1}^{n}\frac{X_{i}}{n}) \geq t\right \} = P\left \{ \overline{X} - E(\overline{X}) \geq t\right \} \leq exp \left \{ \frac{-2t^{2}}{\sum_{i=1}^{n}(\frac{1}{n}-0)^{2}} \right \} = exp\left \{ -2nt^{2} \right \},t > 0$$
注意:隨機變量 $X_{1},X_{2},...,X_{n}$ 並沒有說明來自同一個總體,也不一定同分布,所以只能寫成 $E(\overline{X})$。