弱典型性、強典型性
1. Weak AEP
考慮信源\(\left\{X_{k}:k\ge 1\right\}\),其中\(X_{k}\)獨立同分布,服從\(p(x)\),用\(X\)表示一般性的變量,即任何的\(X_{k}\)都與\(X\)同分布。
Weak AEP I:
\(\displaystyle -\frac{1}{n}\log p(\boldsymbol{X})\)依概率收斂於\(H(X)\),即對於任意\(\epsilon > 0\),對於足夠大的\(n\),
由弱大數定律可證。
弱典型集(weakly typical set):
關於概率分布\(p(x)\)的弱典型集\(W_{[X]\epsilon}^{n}\)是由所有滿足:
的序列\(\boldsymbol{x}\)構成的集合,其中\(\boldsymbol{x} = (x_1, \cdots, x_n)\)。
\(\displaystyle -\frac{1}{n}\log p(\boldsymbol{x}) = -\frac{1}{n}\sum_{k=1}^{n}\log p(x_{k})\)稱作序列\(\boldsymbol{x}\)的經驗熵(empirical entropy)。
Weak AEP II:
對於任意的\(\epsilon > 0\):
- 若\(\boldsymbol{x} \in W_{[X]\epsilon}^{n}\),則\(2^{-n(H(X)+\epsilon)} \le p(\boldsymbol{x}) \le 2^{-n(H(X)-\epsilon)}\)
- 對於足夠大的\(n\),\(\text{Pr}\left\{\boldsymbol{X} \in W_{[X]\epsilon}^{n}\right\} > 1 - \epsilon\)
- 對於足夠大的\(n\),\((1 - \epsilon)2^{n(H(X)-\epsilon)} \le \left|W_{[X]\epsilon}^{n}\right| \le 2^{n(H(X)+\epsilon)}\)
性質1由弱典型集的定義可得,性質2由Weak AEP I可得,性質3通過將性質1乘上\(\left|W_{[X]\epsilon}^{n}\right|\)得到\(\left|W_{[X]\epsilon}^{n}\right|2^{-n(H(X)+\epsilon)} \le \text{Pr}\left\{\boldsymbol{X} \in W_{[X]\epsilon}^{n}\right\} \le \left|W_{[X]\epsilon}^{n}\right|2^{-n(H(X)-\epsilon)}\),結合性質2可得。
弱典型性的解釋:
隨機變量\(X\)服從分布\(p(x)\),獨立地由\(p(x)\)得到序列\(\boldsymbol{X} = (X_1, \cdots, X_n)\),\(\boldsymbol{X}\)的概率接近\(2^{-nH(X)}\)(即\(\boldsymbol{X}\)屬於弱典型集)的可能性非常大,且弱典型集的大小非常接近\(2^{nH(X)}\)。
若\(H(X) < \log \left|\mathcal{X}\right|\),則\(n \rightarrow \infty\)時,上式趨於\(0\)。也就是說,只要\(H(X) < \log \left|\mathcal{X}\right|\),當序列長度足夠長時,i.i.d.得到的序列大概率屬於弱典型集,且弱典型集只占所有可能序列的一小部分。
可能性最大的序列通常並不是弱典型的,例如\(X \sim \text{Bernoulli}(0.9)\),可能性最大的序列是\((1,1, \cdots, 1)\),但是該序列的經驗熵與\(H(X)\)並不相近。
2. 信源編碼定理
\(\boldsymbol{X} = (X_1, X_2, \cdots, X_n) \in \mathcal{X}^{n}\)由\(p(x)\)獨立同分布地得到,一種分組編碼方案是,令\(\mathcal{A} \subseteq \mathcal{X}^{n}\),令\(\mathcal{I} = \left\{1, 2, \cdots, \left|\mathcal{A}\right|\right\}\),\(f: \mathcal{A} \rightarrow \mathcal{I}\)是從\(\mathcal{A}\)到\(\mathcal{I}\)的一一映射,編碼過程為:
- 若\(\boldsymbol{x} \in \mathcal{A}\),編碼為\(f(\boldsymbol{x})\)
- 若\(\boldsymbol{x} \notin \mathcal{A}\),編碼為\(1\)
譯碼過程為:
- 將\(y \in \mathcal{I}\)譯碼為\(f^{-1}(y)\)
其中\(n\)是分組長度,\(\mathcal{I}\)中元素稱為碼字(codeword)
編碼率:\(\displaystyle R = \frac{\log_2\left|\mathcal{A}\right|}{n\log_2\left|\mathcal{X}\right|} = \frac{\log_{\left|\mathcal{X}\right|}\left|\mathcal{A}\right|}{n}\) (對於\(\left|\mathcal{X}\right|=2\)的情況,\(\displaystyle R = \frac{\log\left|\mathcal{A}\right|}{n}\))
錯誤概率:\(P_e = \text{Pr}(\boldsymbol{X} \notin \mathcal{A})\)
信源編碼定理(Source Coding Theorem):
-
Direct Part
對於任意\(\epsilon > 0\),存在一種編碼方案,使得對於足夠大的\(n\),\(\left|R - H(X)\right| < \epsilon\),\(P_e < \epsilon\)
證明:考慮\(\left|\mathcal{X}\right|=2\)的情況,給定\(\epsilon > 0\),找到滿足\(\displaystyle \delta + \frac{1}{2}\log \frac{1}{1 - \delta} = \epsilon\)的\(\delta\),令\(\mathcal{A} = W_{[X]\delta}^{n}\)即可。
-
Converse Part
若某種編碼方案滿足\(R < H(X) - \xi\),其中\(\xi > 0\),則當\(n\)足夠大時,錯誤概率\(P_e\)收斂到\(1\)。
證明:令\(0 < \epsilon < \xi\),構造\(W_{[X]\epsilon}^{n}\),用\(W_{[X]\epsilon}^{'}\)表示\(W_{[X]\epsilon}^{n}\)的補集,則對於足夠大的\(n\):
\[\begin{align*} \text{Pr}(\boldsymbol{X} \in \mathcal{A}) &= \text{Pr}(\boldsymbol{X} \in \mathcal{A} \cap W_{[X]\epsilon}^{n}) + \text{Pr}(\boldsymbol{X} \in \mathcal{A} \cap W_{[X]\epsilon}^{'})\\ &\le \left|\mathcal{A}\right|\times\max_{\boldsymbol{x} \in W_{[X]\epsilon}^{n}}\text{Pr}(\boldsymbol{x})+\text{Pr}(\boldsymbol{X} \in W_{[X]\epsilon}^{'})\\ &\le 2^{nR}\times2^{-n(H(X)-\epsilon)}+\epsilon\\ &\le 2^{n(\epsilon - \xi)}+\epsilon \end{align*} \]所以\(\displaystyle \lim_{n \rightarrow \infty}\text{Pr}(\boldsymbol{X} \in \mathcal{A}) \le \epsilon\),從而\(\displaystyle \lim_{n \rightarrow \infty}\text{Pr}(\boldsymbol{X} \in \mathcal{A}) = 0\)
3. Strong AEP
強典型集(Strong Typical Set):
關於概率分布\(p(x)\)的強典型集\(T_{[X]\delta}^{n}\)是由所有滿足:
的序列\(\boldsymbol{x} = (x_1, x_2, \cdots, x_n) \in \mathcal{X}^{n}\)構成的集合。其中\(N(x;\boldsymbol{x})\)是序列\(\boldsymbol{x}\)中\(x\)的個數。
Strong AEP:
存在\(\eta > 0\),使得當\(\delta \rightarrow 0\)時,\(\eta \rightarrow 0\),並且:
-
若\(\boldsymbol{x} \in T_{[X]\delta}^{n}\),則\(2^{-n(H(X)+\eta)} \le p(\boldsymbol{x}) \le 2^{-n(H(X)-\eta)}\)
-
對於足夠大的\(n\),\(\text{Pr}(\boldsymbol{X} \in T_{[X]\delta}^{n}) > 1 - \delta\)
-
對於足夠大的\(n\),\((1 - \delta)2^{n(H(X)-\eta)} \le \left|T_{[X]\delta}^{n}\right| \le 2^{n(H(X)+\eta)}\)
證明:
性質1:
由於
其中\(\displaystyle \eta = \delta \cdot \max_{x}(-\log p(x)) > 0\),當\(\delta \rightarrow 0\)時,\(\eta \rightarrow 0\)。
因此
從而
性質2:
其中\(\displaystyle \text{Pr}\left(\left|\frac{N(x;\boldsymbol{x})}{n} - p(x)\right|>\frac{\delta}{\left|\mathcal{X}\right|}\text{ for some } x\right) < \delta\)的證明如下:
定義隨機變量\(B_{k}(x) = 1 \cdot \left\{X_{k} = x\right\}\),則\(\displaystyle N(x;\boldsymbol{X})=\sum_{k=1}^{n}B_{k}(x)\),且\(B_{k}(x), k = 1, 2, \cdots, n\)獨立同分布,\(EB_{k}(x) = p(x)\),考慮\(\mathcal{X}\)有限的情況,對於任意的\(x\),由弱大數定律可知,對於任意\(\delta > 0\):
從而:
性質3同Weak AEP性質3
Strong Typicality Versus Weak Typicality
由Strong AEP性質1可知,若\(T_{[X]\delta}^{n}\)是關於\(X\)的強典型集,則存在\(\eta > 0\),使得當\(\delta \rightarrow 0\)時,\(\eta \rightarrow 0\),對於任意的\(\boldsymbol{x} \in \mathcal{X}^{n}\),若\(\boldsymbol{x} \in T_{[X]\delta}^{n}\),則\(\boldsymbol{x} \in W_{[X]\eta}^{n}\)。