信息論與編碼：弱典型性與強典型性

本文轉載自查看原文 2019-12-31 21:28 1010

弱典型性、強典型性

1. Weak AEP

考慮信源\(\left\{X_{k}:k\ge 1\right\}\)，其中\(X_{k}\)獨立同分布，服從\(p(x)\)，用\(X\)表示一般性的變量，即任何的\(X_{k}\)都與\(X\)同分布。

Weak AEP I：

\(\displaystyle -\frac{1}{n}\log p(\boldsymbol{X})\)依概率收斂於\(H(X)\)，即對於任意\(\epsilon > 0\)，對於足夠大的\(n\)，

\[\text{Pr}\left(\left|-\frac{1}{n}\log p(\boldsymbol{X}) - H(X)\right| \le \epsilon\right) > 1 - \epsilon \]

由弱大數定律可證。

弱典型集（weakly typical set）：

關於概率分布\(p(x)\)的弱典型集\(W_{[X]\epsilon}^{n}\)是由所有滿足：

\[\left|-\frac{1}{n}\log p(\boldsymbol{x}) - H(X)\right| \le \epsilon \]

的序列\(\boldsymbol{x}\)構成的集合，其中\(\boldsymbol{x} = (x_1, \cdots, x_n)\)。

\(\displaystyle -\frac{1}{n}\log p(\boldsymbol{x}) = -\frac{1}{n}\sum_{k=1}^{n}\log p(x_{k})\)稱作序列\(\boldsymbol{x}\)的經驗熵（empirical entropy）。

Weak AEP II：

對於任意的\(\epsilon > 0\)：

若\(\boldsymbol{x} \in W_{[X]\epsilon}^{n}\)，則\(2^{-n(H(X)+\epsilon)} \le p(\boldsymbol{x}) \le 2^{-n(H(X)-\epsilon)}\)
對於足夠大的\(n\)，\(\text{Pr}\left\{\boldsymbol{X} \in W_{[X]\epsilon}^{n}\right\} > 1 - \epsilon\)
對於足夠大的\(n\)，\((1 - \epsilon)2^{n(H(X)-\epsilon)} \le \left|W_{[X]\epsilon}^{n}\right| \le 2^{n(H(X)+\epsilon)}\)

性質1由弱典型集的定義可得，性質2由Weak AEP I可得，性質3通過將性質1乘上\(\left|W_{[X]\epsilon}^{n}\right|\)得到\(\left|W_{[X]\epsilon}^{n}\right|2^{-n(H(X)+\epsilon)} \le \text{Pr}\left\{\boldsymbol{X} \in W_{[X]\epsilon}^{n}\right\} \le \left|W_{[X]\epsilon}^{n}\right|2^{-n(H(X)-\epsilon)}\)，結合性質2可得。

弱典型性的解釋：

隨機變量\(X\)服從分布\(p(x)\)，獨立地由\(p(x)\)得到序列\(\boldsymbol{X} = (X_1, \cdots, X_n)\)，\(\boldsymbol{X}\)的概率接近\(2^{-nH(X)}\)（即\(\boldsymbol{X}\)屬於弱典型集）的可能性非常大，且弱典型集的大小非常接近\(2^{nH(X)}\)。

\[\frac{\left|W_{[X]\epsilon}^{n}\right|}{\left|\mathcal{X}\right|^{n}} \approx \frac{2^{nH(X)}}{2^{n\log \left|\mathcal{X}\right|}}=2^{n(H(X) - \log \left|\mathcal{X}\right|)} \]

若\(H(X) < \log \left|\mathcal{X}\right|\)，則\(n \rightarrow \infty\)時，上式趨於\(0\)。也就是說，只要\(H(X) < \log \left|\mathcal{X}\right|\)，當序列長度足夠長時，i.i.d.得到的序列大概率屬於弱典型集，且弱典型集只占所有可能序列的一小部分。

可能性最大的序列通常並不是弱典型的，例如\(X \sim \text{Bernoulli}(0.9)\)，可能性最大的序列是\((1,1, \cdots, 1)\)，但是該序列的經驗熵與\(H(X)\)並不相近。

2. 信源編碼定理

\(\boldsymbol{X} = (X_1, X_2, \cdots, X_n) \in \mathcal{X}^{n}\)由\(p(x)\)獨立同分布地得到，一種分組編碼方案是，令\(\mathcal{A} \subseteq \mathcal{X}^{n}\)，令\(\mathcal{I} = \left\{1, 2, \cdots, \left|\mathcal{A}\right|\right\}\)，\(f: \mathcal{A} \rightarrow \mathcal{I}\)是從\(\mathcal{A}\)到\(\mathcal{I}\)的一一映射，編碼過程為：

若\(\boldsymbol{x} \in \mathcal{A}\)，編碼為\(f(\boldsymbol{x})\)
若\(\boldsymbol{x} \notin \mathcal{A}\)，編碼為\(1\)

譯碼過程為：

將\(y \in \mathcal{I}\)譯碼為\(f^{-1}(y)\)

其中\(n\)是分組長度，\(\mathcal{I}\)中元素稱為碼字（codeword）

編碼率：\(\displaystyle R = \frac{\log_2\left|\mathcal{A}\right|}{n\log_2\left|\mathcal{X}\right|} = \frac{\log_{\left|\mathcal{X}\right|}\left|\mathcal{A}\right|}{n}\) （對於\(\left|\mathcal{X}\right|=2\)的情況，\(\displaystyle R = \frac{\log\left|\mathcal{A}\right|}{n}\)）

錯誤概率：\(P_e = \text{Pr}(\boldsymbol{X} \notin \mathcal{A})\)

信源編碼定理（Source Coding Theorem）：

Direct Part

對於任意\(\epsilon > 0\)，存在一種編碼方案，使得對於足夠大的\(n\)，\(\left|R - H(X)\right| < \epsilon\)，\(P_e < \epsilon\)

證明：考慮\(\left|\mathcal{X}\right|=2\)的情況，給定\(\epsilon > 0\)，找到滿足\(\displaystyle \delta + \frac{1}{2}\log \frac{1}{1 - \delta} = \epsilon\)的\(\delta\)，令\(\mathcal{A} = W_{[X]\delta}^{n}\)即可。
Converse Part

若某種編碼方案滿足\(R < H(X) - \xi\)，其中\(\xi > 0\)，則當\(n\)足夠大時，錯誤概率\(P_e\)收斂到\(1\)。

證明：令\(0 < \epsilon < \xi\)，構造\(W_{[X]\epsilon}^{n}\)，用\(W_{[X]\epsilon}^{'}\)表示\(W_{[X]\epsilon}^{n}\)的補集，則對於足夠大的\(n\)：

\[\begin{align*} \text{Pr}(\boldsymbol{X} \in \mathcal{A}) &= \text{Pr}(\boldsymbol{X} \in \mathcal{A} \cap W_{[X]\epsilon}^{n}) + \text{Pr}(\boldsymbol{X} \in \mathcal{A} \cap W_{[X]\epsilon}^{'})\\ &\le \left|\mathcal{A}\right|\times\max_{\boldsymbol{x} \in W_{[X]\epsilon}^{n}}\text{Pr}(\boldsymbol{x})+\text{Pr}(\boldsymbol{X} \in W_{[X]\epsilon}^{'})\\ &\le 2^{nR}\times2^{-n(H(X)-\epsilon)}+\epsilon\\ &\le 2^{n(\epsilon - \xi)}+\epsilon \end{align*} \]
所以\(\displaystyle \lim_{n \rightarrow \infty}\text{Pr}(\boldsymbol{X} \in \mathcal{A}) \le \epsilon\)，從而\(\displaystyle \lim_{n \rightarrow \infty}\text{Pr}(\boldsymbol{X} \in \mathcal{A}) = 0\)

3. Strong AEP

強典型集（Strong Typical Set）：

關於概率分布\(p(x)\)的強典型集\(T_{[X]\delta}^{n}\)是由所有滿足：

\[\sum_{x \in \mathcal{X}}\left|\frac{1}{n}N(x;\boldsymbol{x})-p(x)\right| < \delta \]

的序列\(\boldsymbol{x} = (x_1, x_2, \cdots, x_n) \in \mathcal{X}^{n}\)構成的集合。其中\(N(x;\boldsymbol{x})\)是序列\(\boldsymbol{x}\)中\(x\)的個數。

Strong AEP：

存在\(\eta > 0\)，使得當\(\delta \rightarrow 0\)時，\(\eta \rightarrow 0\)，並且：

若\(\boldsymbol{x} \in T_{[X]\delta}^{n}\)，則\(2^{-n(H(X)+\eta)} \le p(\boldsymbol{x}) \le 2^{-n(H(X)-\eta)}\)
對於足夠大的\(n\)，\(\text{Pr}(\boldsymbol{X} \in T_{[X]\delta}^{n}) > 1 - \delta\)
對於足夠大的\(n\)，\((1 - \delta)2^{n(H(X)-\eta)} \le \left|T_{[X]\delta}^{n}\right| \le 2^{n(H(X)+\eta)}\)

證明：

性質1：

\[\begin{align*} \log p(\boldsymbol{x}) &= \sum_{x}N(x;\boldsymbol{x})\log p(x)\\ &= \sum_{x}\left(N(x;\boldsymbol{x}) - np(x)+np(x)\right)\log p(x)\\ &= n\left[\sum_{x}\left(\frac{N(x;\boldsymbol{x})}{n} - p(x)\right)\log p(x) +\sum_{x}p(x)\log p(x)\right]\\ &= -n\left[\sum_{x}\left(\frac{N(x;\boldsymbol{x})}{n} - p(x)\right)\left(-\log p(x) \right)+H(X)\right]\\ \end{align*} \]

由於

\[\begin{align*} \left|\sum_{x}\left(\frac{N(x;\boldsymbol{x})}{n} - p(x)\right)\left(-\log p(x) \right)\right| &\le \sum_{x}\left|\frac{N(x;\boldsymbol{x})}{n} - p(x)\right|\left(-\log p(x) \right)\\ &\le \delta \cdot \max_{x}(-\log p(x))\\ &= \eta \end{align*} \]

其中\(\displaystyle \eta = \delta \cdot \max_{x}(-\log p(x)) > 0\)，當\(\delta \rightarrow 0\)時，\(\eta \rightarrow 0\)。

因此

\[-n(H(X)+\eta) \le \log p(x) \le -n(H(X)-\eta) \]

從而

\[2^{-n(H(X)+\eta)} \le p(\boldsymbol{x}) \le 2^{-n(H(X)-\eta)} \]

性質2：

\[\begin{align*} \text{Pr}(\boldsymbol{X} \in T_{[X]\delta}^{n}) &=\text{Pr}\left(\sum_{x}\left|\frac{N(x;\boldsymbol{x})}{n} - p(x)\right| \le \delta \right)\\ &= 1 - \text{Pr}\left(\sum_{x}\left|\frac{N(x;\boldsymbol{x})}{n} - p(x)\right| > \delta \right)\\ &\ge 1 - \text{Pr}\left(\left|\frac{N(x;\boldsymbol{x})}{n} - p(x)\right|>\frac{\delta}{\left|\mathcal{X}\right|}\text{ for some } x\right)\\ &> 1 - \delta \end{align*} \]

其中\(\displaystyle \text{Pr}\left(\left|\frac{N(x;\boldsymbol{x})}{n} - p(x)\right|>\frac{\delta}{\left|\mathcal{X}\right|}\text{ for some } x\right) < \delta\)的證明如下：

定義隨機變量\(B_{k}(x) = 1 \cdot \left\{X_{k} = x\right\}\)，則\(\displaystyle N(x;\boldsymbol{X})=\sum_{k=1}^{n}B_{k}(x)\)，且\(B_{k}(x), k = 1, 2, \cdots, n\)獨立同分布，\(EB_{k}(x) = p(x)\)，考慮\(\mathcal{X}\)有限的情況，對於任意的\(x\)，由弱大數定律可知，對於任意\(\delta > 0\)：

\[\text{Pr}\left(\left|\frac{1}{n}\sum_{k=1}^{n}B_{k}(x) - p(x)\right| > \frac{\delta}{\left|\mathcal{X}\right|}\right) < \frac{\delta}{\left|\mathcal{X}\right|} \]

從而：

\[\begin{align*} &\ \text{Pr}\left(\left|\frac{N(x;\boldsymbol{x})}{n} - p(x)\right|>\frac{\delta}{\left|\mathcal{X}\right|}\text{ for some } x\right)\\ = &\ \text{Pr}\left(\left|\frac{1}{n}\sum_{k=1}^{n}B_{k}(x) - p(x)\right|>\frac{\delta}{\left|\mathcal{X}\right|}\text{ for some } x\right)\\ = &\ \text{Pr}\left(\bigcup_x\left|\frac{1}{n}\sum_{k=1}^{n}B_{k}(x) - p(x)\right|>\frac{\delta}{\left|\mathcal{X}\right|}\right)\\ \le &\ \sum_{x}\text{Pr}\left(\left|\frac{1}{n}\sum_{k=1}^{n}B_{k}(x) - p(x)\right|>\frac{\delta}{\left|\mathcal{X}\right|}\right)\\ < &\ \delta \end{align*} \]

性質3同Weak AEP性質3

Strong Typicality Versus Weak Typicality

由Strong AEP性質1可知，若\(T_{[X]\delta}^{n}\)是關於\(X\)的強典型集，則存在\(\eta > 0\)，使得當\(\delta \rightarrow 0\)時，\(\eta \rightarrow 0\)，對於任意的\(\boldsymbol{x} \in \mathcal{X}^{n}\)，若\(\boldsymbol{x} \in T_{[X]\delta}^{n}\)，則\(\boldsymbol{x} \in W_{[X]\eta}^{n}\)。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 利用jstack定位典型性能問題實例關於信息論中熵、相對熵、條件熵、互信息、典型集的一些思考信息論中的幾種編碼使用metaCCA進行單/多個SNP與多表型的典型相關性分析信息論與編碼課程設計信息論與編碼：有限域信息論與編碼：線性分組碼 H3C BGP配置11- BGP網絡的可靠性典型配置舉例2-BGP與BFD聯動配置信息論信息論