基礎信息論 (復習)


基礎信息論復習

課程復習指引:

  • 分清了解,理解,掌握
    了解: 知道
    理解:可辯析,可論述
    掌握:可辯析可論述,可計算

  • 課程學習目標:

    1. 掌握通信系統中信息測度,信道容量和率失真函數得基本概念和計算方法
    2. 掌握部分信源編碼方法及信道編碼得基本理論
      (重要:二元信道,面向考試的話,注意重要得信道,不會考很難的信道)
  • 重點和難點:

    (調制解調要了解,可能會出簡答題,畫出通信模型等等)
    清楚各個物理概念,理解記憶並表述
    離散熵比連續熵更重要

  • 各個章的重點內容:

    • 第二章一定會出計算題,重點中的重點
      重視 :離散,平穩信源!馬爾可夫信源!(可能提高考察) 香農第一定理(自己推導一遍)

    • 第三章:
      重視單符號離散信道容量的計算,重視幾種特殊信道的信道容量的計算!

      重視香農公式的推到,物理意義,應用!

    • 第四章 率失真函數:一般會考察定義,定義域,值域,參量表達式等

    • 第五章 信源編碼方法:
      主要理解唯一可譯碼的條件,必要性,付出代價,以及掌握碼數方法等。
      聚焦到香農編碼和費諾編碼

    • 第六章 信道編碼方法
      聚焦到奇偶效驗碼和線性分組碼兩個方法!
      而且要掌握譯碼准則:最大后驗概率譯碼規則和極大似然譯碼規則等等!

    • 推薦作業:

第2章 信息熵

一. 信息量

  • 自信息量
    一個隨機事件發生某一結果后所帶來的信息量稱為 自信息量

    \(I(a_i) = -log_2p(a_i)\)
    --當log底數為 2時:單位為bit
    --當log底數為e時:單位為奈特(nat)
    --當log底數為10時:單位為笛特(Det)或哈特(Hart)

    \(I(a_i)\)的性質:

    • 為非負值
    • \(p(a_i)\)為1的時候, 為 0
    • \(p(a_i)\)為0的時候,為 \(\infin\)
    • \(I(a_i)\)\(p(a_i)\)的單調遞減函數
      即:概率越大的事件,提供的自信息量越少
  • 聯合自信息量

    \(I(a_ib_j)=-log_2p(a_ib_j)\)

    當X與Y相互獨立的時候,有公式:
    \(I(a_ib_j) = I(a_i)+I(b_j)\)

  • 條件自信息量
    \(b_j\)條件下,發生\(a_i\)的條件概率為\(p(a_i/b_j)\)
    則它的條件自信息量為:
    \(I(a_i/b_j)=-log_2p(a_i/b_j)\)
    表示特定條件下隨機事件發生\(a_i\)所帶來的信息量

二. 互信息量與條件互信息量

  • 互信息量
    設兩個隨機事件X和Y,X取值於信源發出的離散消息集合,Y取值於信宿收到的離散消息集合。
    一般而言,由於信道中總存在着噪音和干擾,所以:

    • 先驗概率: \(p(a_i)\)
    • 后驗概率: \(p(a_i/b_j)\)

    則,互信息量定義為:
    \(I(a_i;b_j)=log_2\frac{p(a_i/b_j)}{p(a_i)}\)
    將上式展開:
    \(I(a_i; b_j)=I(a_i)-I(a_i/b_j)\)
    即:
    互信息量等於自信息量減去條件信息量。

    互信息量等於先驗不確定度-后驗不確定度
    可以這樣理解:自信息量就是對\(b_j\)一無所知的情況下,\(a_i\)的不確定度,條件自信息量就是在數量上等於已知\(b_j\)的條件下,\(a_i\)仍然存在的不確定度。

    再者:可以從宏觀角度觀察問題:
    可以認為輸入隨機變量X和輸出隨機變量Y之間沒有任何關聯關系。即X和Y統計獨立
    則根據概率的性質,和先驗不確定度和后驗不確定度的公式得到:
    \(I(a_i; b_j)=I(a_i)+I(b_j)-I(a_ib_j)=log_2\frac{p(a_ib_j)}{p(a_i)(b_j)}\)

  • 互信息的性質

    1. 對稱性
      \(p(a_i;b_j)=p(b_j;a_i)\)
      互信息的對稱性表明了兩個隨機事件及時間的可能結果\(a_i\)\(b_j\) 之間的統計約束程度
    2. 當X和Y相互獨立時,互信息為 0
    3. 互信息量可為正值或負值。
      取決於先驗概率和后驗概率的大小關系
  • 條件互信息量
    條件互信息量的含義是給定 \(c_k\)的條件下,\(a_i\)\(b_j\)之間的互信息量。用 \(I(a_i; b_j / c_k)\)表示
    定義式為: \(I(a_i; b_jc_k)=I(a_i; c_k)+I(a_i;b_j/c_k)\)

三. 信源熵

  • 信源熵
    定義各個離散消息的自信息量的數學期望,即概率加權的統計平均值,為信源的平均信息量,一般稱為信源的信息熵,也叫信源熵或者香農熵,有時稱為無條件熵或熵函數。記為H(X)
    \(H(X)=E[(I(a_i)]=-\sum^n_{i=1}p(a_i)log_2p(a_i)\)

    信源熵的三種物理含義:

    • 表示信源輸出后,平均每個離散消息所提供的信息量
    • 表示信源輸出前,信源的平均不確定度
    • 反映了變量X的隨機性
  • 條件熵(損失熵)(噪聲熵)

    (當已知X時,Y跟着完全確定的時候,噪聲熵為 0!)
    條件熵是在聯合符號集合XY上的條件自信息量的數學期望。

    \(H(X/Y)=\sum^m_{j=1}\sum^n_{i=1}p(a_ib_j)I(a_i/b_j) = -\sum^m_{j=1}\sum^n_{i=1}p(a_ib_j)log_2(a_i/b_j)\)

    ​ 計算方法

    1. 先根據條件求出 \(p(a_i)\)
    2. 再求出 \(p(a_i/b_j)\)
    3. 最后根據公式求得 H(X/Y)

(當H(X/Y) = H(Y/X) = 0時,要求是一一對應信道,也就是無噪無損信道)

  • 聯合熵
    也叫共熵
    是聯合離散符號集合XY上的每個元素\(a_ib_j\)的聯合自信息量的數學期望。用 H(XY)表示
    即:
    \(H(XY)=\sum_{i=1}^n\sum_{j=1}^mp(a_ib_j)I(a_ib_j)=-\sum_{i=1}^n\sum_{j=1}^mp(a_ib_j)log_2p(a_ib_j)\)

  • 信源熵的基本定理和性質

    1. 非負性
      因為自信息有非負性

    2. 對稱性

    3. 最大離散熵定理
      定理:信源X中包含n個不同離散消息時,信源熵H(X)有
      \(H(X)\le{log_2n}\)
      當且僅當X中各個消息出現的概率全相等時,上去取等號

      即:最大離散熵為 \(log_2n\)

    4. 擴展性

    5. 確定性

    6. 可加性
      \(H(XY)=H(X)+H(Y/X)=H(Y)+H(X/Y)\)

    7. 極值性
      \(H_n[p(a_1),p(a_2),...,p(a_n)]\le-\sum_{i=1}^np(a_i)log_2p(b_i)\)
      由極值性可以證明 條件熵小於信源熵
      \(H(X/Y)\le{H(X)}\)

    8. 上凸性
      \(H(\alpha X+(1-\alpha)Y\ge\alpha H(X)+(1-\alpha)H(Y)\)

  • 平均互信息量
    互信息量只反映了某一對輸入輸出消息間信息的流通。我們更希望從平均意義上來衡量信源,信宿間的信息流通
    定義式:
    \(I(X; Y)=\sum_{i=1}^n\sum^m_{j=1}p(x_iy_j)log\frac{p(x_i/y_j)}{p(x_i)}=\sum_{i=1}^n\sum^m_{j=1}p(x_iy_j)I(a_i;b_j)\)

    \(I(X; Y)=H(X)-H(X/Y)=H(X)+H(Y)-H(XY)\)

    通信前對X的平均不確定度 - 通信后,已知Y,對X的平均不確定度

    性質:

    1. 對稱性

    2. 非負性

    3. 極值性
      \(I(X;Y)\le H(X)\)
      \(I(X;Y)\le H(Y)\)
      當X與Y獨立的時候 ,為 0!

    4. 凸函數性
      信道固定時:為\(p(x_i)\)的上凸函數
      信道固定時:為\(p(y_j/x_i)\)下凸函數

5.  與各類熵的關系

四. 離散平穩信源

  1. 離散性。平穩性

  2. 序列信息的熵(離散平穩無記憶信源)
    可以證明:離散平穩無記憶信源X的N次擴展信源的熵就是離散信源X的熵的N倍。
    \(H(X^N)=NH(X)\)

  3. 離散平穩信源的信源熵和極限熵
    離散平穩信源一般是有記憶信源。

    • 信源熵:

      \(H(X)=H(X_1X_2)=H(X_1)+H(X_2/X_1)\)

      可以看出:二位離散平穩有記憶信源的熵\(\le\)二維離散平穩無記憶信源的熵
      上式是二維離散信源。還可以推廣到N維:
      就是X起始時刻隨機變量X1的熵與各階條件熵之和

    • 平均符號熵和極限熵

      1. 信源的矢量熵(聯合熵)

        \(H(X_1X_2...X_N)\)
        信源平均每發出一個消息所提供的信息量

      2. 平均符號熵

        \(H_N=\frac{H(X_1X_2...X_n)}{N}\)

      3. 極限熵
        當分組長度N趨於無窮大時的平均符號熵
        研究實際信源,必須求出信源的極限熵,能表示多符號離散平穩有記憶信源平均每發一個符號的信息量

五. 馬爾可夫信源與冗余度

  1. 定義:
    某一時刻信源輸出的符號的概率只與當前所處狀態有關,而與以前的狀態無關
    信源的下一個狀態由當前狀態和下一刻的輸出唯一確定

  2. 馬爾可夫信源的極限熵
    m階馬爾可夫信源的極限熵等於m階條件熵
    \(H∞=H_{m+1}=-\sum_i\sum_jp(e_i)p(e_j|e_i)logp(e_j|e_i)\)

$p(e_j)$:信源的平穩分布

注:極限熵並非一定存在

計算常用全概率公式
\(p(s_j)=\sum_ip(s_i)p(s_j/s_i)\)

  • m階馬爾可夫與一般有記憶信源的區別

信源冗余度
對實際信源,其所提供的信息量應該用 H∞ 衡量
但涉及到求解無窮維聯合概率分布的問題
將實際信源近似為 多符號信源 或 m階馬爾可夫信源

![](https://img2020.cnblogs.com/blog/1737954/202008/1737954-20200819170453916-360444319.png)


*   冗余度定義:
    $\xi=1-\frac{H_\infty}{H_0}$
    表示信息中,$\xi$的內容都是多余的
*   冗余度與傳輸效率
    冗余度越低,通信有效性越好
    冗余度過低,會帶來通信可靠性方面的問題
*   常用公式:
    $H_\infty=\frac{log(字的個數)}{每個字包含的平均字符數}$

六. 連續信源

  • 連續信源的熵
    連續信源的熵為無窮大!所以不確定性也是無窮大
    丟掉無窮大項后,
    定義連續信源的熵為:\(H_c(X)=-\int_{-\infty}^{+\infty}p(x)logp(x)dx\)
    (因為應用中常常關心的是熵之間的差值,故無窮項可以相互抵消)
    所以定義中的熵不會影響討論所關心的交互信息量,信息容量和率失真函數

  • 幾種特殊連續信源的熵

    1. 一維均勻分布
    2. 一維高斯分布(僅與方差有關)
    3. 指數分布
  • 連續熵的性質及最大連續熵定理

    1. 連續熵可為負值

    2. 可加性
      \(H_c(XY)=H_c(X)+H_c(Y/X)\)
      \(H_c(XY)=H_c(Y)+H_c(X/Y)\)

    3. 平均互信息量的非負性,對稱性
      \(I_c(X;Y)=H_c(X)-H_c(Y/X)\)
      \(I_c(X;Y)=H_c(Y)-H_c(X/Y)\)
      \(I_c(X;Y)=[H_c(X)+H_C(Y)]-H_c(XY)\)
      \(I_c(X;Y)=I_c(Y;X)\)

    4. 最大熵

      • 當峰值功率受限時

        均勻分布的熵最大 log(b-a)

      • 平均功率受限時:(均值為0,方差受限的隨機變量)
        正態分布的熵最大 \(\frac12log2\pi eP_{avg}\)

      • 輸出信號幅度受限

        1. 定理:對於服從均勻分布的隨機變量
        2. 定理:對於服從均值為m,方差為\(\sigma_2\)的高斯分布的隨機變量具有最大輸出熵

七. 熵功率

  • 離散信源的信息變差:

    \(I_{0\infty}=H_0 - H_{\infty}\)
    兩者差值越大,代表信源的絕對冗余度越大!

  • 連續信源的信息變差
    \(I_{p,q}=H_c[p(x), X]-H_c[q(x),X]\)
    最大熵- 實際熵

  • 限定條件不同的時候,信息變差的值並不相同:
    僅討論均值為0,平均功率受限的連續信源:
    \(I_{p,q}=H_c[p(x), X]-H_c[q(x),X]=\frac12log2\pi e P_{avg}-\frac12log2\pi e \overline{P_{avg}}\)
    即:
    \(I_{p,q}=\frac12log\frac{P_{avg}}{\overline{P_{avg}}}\)

八. 香農第一定理(離散無失真信源編碼定理)

  • 定長編碼定理

    易推導,對於平穩無記憶信源,由平均符號熵為\(\frac{Klog_2m}L\)
    只要:\(L\ge\frac{\sigma^2[I(a_i)]}{\epsilon^2\delta}\)

    譯碼差錯率一定小於任意正數\(\delta\)

    • 解題思路:
      用所給信源模型求出H(X), \(\sigma^2[I(a_i)]\).
      編碼效率=\(\frac{H(X)}{H(X)+\varepsilon}\)
      計算出\(\varepsilon\)
      然后由\(L\ge\frac{\sigma^2[I(a_i)]}{\epsilon^2\delta}\)
      得到L的取值范圍
  • 變長編碼定理

    計算公式:
    編碼效率的下界:
    \(\eta=\frac{H(X)}R\gt\frac{H(X)}{H(X)+\frac{log_2m}{L}}\)

第三章 信道容量

一. 單符號離散信道

用信道轉移概率矩陣來表示信道特征。

\(I(X;Y)\)理解為信道的信息傳輸率。(或信息率)

易知\(R=I(X;Y)\le H(X)\)

由凸函數性質可知:一定有一種概率分布可以使信道所能傳送的信息率為最大。
我們把這個最大的信息傳輸率定義為信道容量,記為C
若信道平均傳輸一個符號要t秒。則單位時間的信道容量為 \(C_t=\frac1tmaxI(X;Y)\)

  • 幾種特殊離散信道的信道容量

    • 離散無噪信道的信道容量
      由無躁的概念分為3種情況:

      1. 具有一一對應關系(輸入n = 輸出m)
        易知H(X/Y) = 0。 即 I(X;Y) = H(X) = H(Y)
        信道矩陣為單位矩陣

      2. 具有可擴展性能的無噪信道(輸入n < 輸出m)
        (例如,一對多)
        已知Y后,X不再具有任何不確定度:即H(X/Y) = 0, 故 I(X;Y) = H(X)
        此時\(C = log_2n\)

        注意:此信道的輸入端符號熵小於輸出端符號熵H(X) < H(Y)
        最佳輸入\(p(x_i)=\frac1n\)

      3. 具有歸並性能的無噪信道(輸入n > 輸出m)
        (例如,多對一)
        類似:H(Y/X) = 0. 故 I(X;Y) = H(Y)

        H(X) > H(Y)
        此時\(C = log_2m\)
        最佳輸入:使\(p(y_j)=\frac1m的p(x_i)\)

        注意!此時最佳輸入概率分布並不唯一!

    可知:無噪信道的信道容量C 只取決於 信道的輸入符號數n或輸出符號數m,與信源無關

    • 強對稱離散信道的信道容量

      信道矩陣特點

      1. 對角線元素都為\(\overline{p}\)(正確傳遞概率)
      2. 其余元素都為 \(\frac{p}{n-1}\)(錯誤傳遞概率)
      3. 每行之和為1
        每列之和也為1
      4. 矩陣為對稱陣

      計算:用I(X;Y) = H(Y) - H(Y/X) 因為\(p(y_j/x_i)\)已知

      推導后可得: \(I(X;Y)=H(X)-H(Y/X)=H(Y)-H(行矢量)\)

      故:C = max[H(Y)] - H(行矢量) = \(logn + \overline{p}log\overline{p}+plog\frac{p}{n-1}\)
      max[H(Y)] = log n

      可以推導出最佳信源分布為:等概分布

      • 特例:二進制對稱信道!
        當p = 0.5時,為無用信道,強噪聲信道。
    • 對稱離散信道的信道容量
      定義:行可排列,列可排列,矩陣可排列

      • 推導公式:
        \(H(Y/X)=H(行矢量)\)
        \(C = max_{p(x_i)}[H(Y)]- H(行矢量)\)

        可以推出 -> \(p(x_i)=\frac1n\) 就能推出 \(p(y_j)\)為常量
        即: 最佳輸入為\(p(x_i)=\frac1n\) .
        C = log m - H(行矢量)

    • 准對稱離散信道的信道容量
      定義:行可排列, 列不可排列。但矩陣中的m列 可分成s 個不相交的子集。每個子集對應的子矩陣具有可排列性
      達到最佳輸入分布也是等概率分布

      信道容量計算公式為:\(C = log n - \sum_{k=1}^sN_klog M_k -H (q_1,q_2,...,q_m)\)

      n為輸入符號集的個數。\(N_k\)為第k個子矩陣中的行元素之和(常數)。\(M_k\)是第k個子矩陣的列元素之和(常數)。s是子矩陣的個數。\(q_1, q_2,...q_m\)為整個信道矩陣中的行元素(常數)

      可得

      推導過程中:
      \(H(Y/X)=H(q_1,q_2,...,q_m)\)
      H(Y)的前一部分 = log n
      H(Y)的后一部分 = \(-\sum_{k=1}^sN_klog M_k\)
      再由C = H(Y) - H(Y/X) 得到最終公式$C = log n - \sum_{k=1}^sN_klog M_k -H (q_1,q_2,...,q_m)

二. 單變量連續信道與香農公式

  • 香農公式!
    加性連續信道:噪聲N與信號X統計獨立。噪聲對信號的干擾表現為和輸入線性疊加

    • 對於加性連續信道,其信道轉移特性為噪聲的概率密度。p(y/x) = p(n)

    • \(H_c(Y/X)=H(N)\) \(C = max_{p(x)}\{H_c(Y)\}-H_c(N)\)

    • 最大連續熵:常見限定條件:

      1. 峰值功率受限:均勻分布

      2. 均值受限: 指數分布

      3. 平均功率受限:正態分布
        容易計算出\(H_c(N)=\frac12log(2\pi e P_N)=\frac12log(2\pi e \sigma^2)\)
        可以證明:當平均功率受限的條件下,Y滿足高斯分布的時候,\(H_c(Y)\)達到最大!
        當在X也服從零均值的高斯分布的時候,Y=X+N,也服從高斯分布。且E(Y)=E(X)+E(N)=0.
        \(P_Y = \sigma_Y^2=\sigma_X^2+\sigma^2_N=P_X+P_N\)

        代入之前的公式得到:\(C=\frac12log(1+\frac{P_X}{P_N})\) 單位:bit/sig

        上式就是香農公式的第一種形式!!!

      • 采樣定理:信道的頻帶為(0, W) ,則每秒需要進行2W 次采樣,在接收端才能無失真的恢復出原始信號。
        可以計算出:
        香農公式的第二種形式\(C_t=Wlog(1+\frac{P_X}{P_N})\) 單位:bit /s
        公式中:功率信噪比:\(\frac{P_x}{P_N}(dB)=10*log_{10}^{\frac{P_x}{P_N}}\)
        即:\(\frac{P_x}{P_N}=10^{\frac{\frac{P_x}{P_N}dB}{10}}\)

      • 由高斯白噪聲的概念:高斯白噪聲就是指功率譜密度為常數(\(N_0 / 2\)) ,而在一個頻帶為(0, W)的信道中,噪聲平均功率是:\(P_N = \frac{N_0}2*2W=N_0W\)

        可以帶入第二種形式得到:
        香農公式的第三種形式:\(C_t = Wlog(1+\frac{P_X}{N_0W})\) 單位 bit / s
        從第三種形式可以看出,信噪比和帶寬是成反比的!

  • 對於非高斯信道,用香農公式算出的信道容量是其理論上的下限值

    1. 帶寬一定,提高信噪比可以提高信道容量
    2. 倍數相同,增加帶寬通常比提高信噪更有效!
    3. 無噪連續信道的信道容量為無窮大。
    4. 當增加信道帶寬,並不能使信道容量無限增加!無限接近\(\frac{P_X}{N_0}*log e\)
    5. 當所需要傳輸的總信息量一定時,則帶寬W,傳輸時間T,信噪比\(P_X/P_N\)三者可以進行相互轉換

三. 信道編碼定理

數學描述: 若有一離散無記憶平穩信道,容量C,輸入序列長度為L,只要待傳送的信息率R<C,總可以找到一種編碼,當L足夠長,對任意正數\(\varepsilon\) ,總可以找到一種編碼,使得譯碼差錯概率\(P_e < \varepsilon_0\) 反之,當R<C時,任何編碼的\(P_e\)必大於0,當L->∞,\(P_e-> 1\)

\(R\le C\),理論上就可以實現近乎無失真地傳輸。具體方法就是,通過編碼得方法,增加信道符號序列的長度。

四. 噪聲

主要研究加性噪聲。

  • 二進制信道模型

    IN=0/1 -> binary channel -> OUT = 0/1

  • 計算BER(Binary Error Rate)

    BER 約等於 錯誤的比特數 / 匹配的比特數

第四章 信息率失真函數

一. 基本概念

信號傳輸允許一定程度的失真

  • 失真函數
    \(d(x_i, y_j)\)
    可以人為規定

    1. \[d(x_i,y_j)=\begin{cases}0, i=j\\a,a\ge0.i\ne j\end{cases} \]

      當a=1時,失真函數稱為漢明失真函數

    2. \(d(x_i,y_j)=(y_j-x_i)^2\)
      平方誤差失真函數。

      一半用於表示由於幅度變化引起的失真。多用於連續信源

  • 失真函數的定義推廣到適量傳輸
    比如離散序列矢量信源的N長符號序列。

    \(d_N(X,Y)=\sum_{i=1}^Nd(X_i,Y_i)\)
    對應的失真矩陣有\(n^N *m^N\)個元素

  • 平均失真度
    限失真的失真值。只能用它的數學期望或統計平均值,將失真函數的數學期望稱為平均失真度

    \(\overline{D}=\sum_{i=1}^n\sum_{j=1}^mp(x_iy_j)*d(x_i,y_j)\)

    平均失真度的意義:
    在平均意義上衡量信道每傳遞一個符號所引起的失真的大小

    • 矢量傳輸的平均失真意義:

      \(\overline{D_N}=E[D_N]=\sum^N_{i=1}\overline{D_i}\)
      其中,\(\overline{D_i}\)時第i個位置上的符號的平均失真

    • 如果信源時離散無記憶N次擴展信源,且信道是離散無記憶N次擴展信道。
      則,每個位置上的符號的平均失真\(\overline{D_i}\)相等,且等於矢量平均失真。
      \(\overline{D_N}=N\overline{D_i}, i=1,2,...,\)

  • 信息率失真函數

    • 保真度准則:

      $\overline{D}\le D $(預先規定的限定失真度,是允許失真的上界)
      信息壓縮后的平均失真度,若信源和失真度一定,就只是信道統計特性 的函數。傳遞概率不同,平均失真度隨之改變

    • D 失真許可信道
      滿足保真度准則的所有信道。

    • 信息率失真函數的定義
      在D允許信道\(P_D\)中,尋找一個信道p(Y|X),使給定的信源經過此信道傳輸時,其信道傳輸率 \(I(X,Y)\)最小。
      \(R(D)=\min_{p(y|x)∈P_D}I(X,Y)\)

*   信息率失真函數的物理意義:
    對於某給定信源而言,任何限失真編譯碼方法,必須保證系統的平均互信息量 $I(X;Y)\ge R(D)$,才有可能滿足失真條件$\overline{D}\le D$。否則一定有$\overline{D} > D$

  • 求信息率失真函數的方法:

*   求解方法對比:

  • 信息率失真函數的性質

    • 定義域: R(D) 的定義域 (0, Dmax)
    • R(D)是關於D的下凸函數
    • R(D) 在區間 (0, Dmax)上是嚴格遞減函數

最小平均失真度\(D_{min}\)的求法:
在失真矩陣的每一行找出一個最小的\(d(x_i,y_j)\),各行的最小值都不同。對這些所有的最小值求數學期望,就是信源的最小平均失真度
當每一行都有0存在的時候,最小平均失真度為0,此時,信源不允許任何失真存在。
而且信息率至少等於信源輸出的平均信息量,即R(0) = H(X)

最大平均失真度\(D_{max}\)的求法:
必須傳輸的信息率R越小,容忍的失真D就越大。當R(D)等於 0 的時候,對應的平均失真最大。也就是函數R(D) 定義域的上界值\(D_{max}\)


  • 計算\(D_{max}\)的值

    \(D_{max}=\min_{p(y|x)∈P_0}E[d(x,y)]=min_{p(y_j)}\sum_jp(y_j)D_j\)

    R(D)函數就是壓縮程度的衡量。

二. 離散信源的信息率失真函數

1. 離散信源信息率失真函數的參量表達式

  • 參量表示法

2. 二元及等概率離散信源的信息率失真函數

  • 二元對稱信源的信息率失真函數R(D)
    給定平均失真度D:

    • 信源分布越均勻,(p值越接近1/2),R(D)越大,即可壓縮性越小
    • 信源分布越不均勻,R(D)就越小,即可壓縮性越大
  • 等概率離散信源的信息率失真函數

公式分析:

*   第一項log n 是等概率信源的熵,即無失真傳送信源所必須的信息率,后兩項則是由於容忍到一定失真可以壓縮的信息率。
*   對同一失真度D,n越大,R(D)越大,壓縮率越小。
*   對同一失真度D,n越小,R(D)越小,壓縮率越大。
*   當n=2,$\alpha=1$時,$R(D) = H(p)-H(D)=log 2 - H(D) = 1 - H(D)$

三. 連續信源的信息率失真函數

1. 連續信源信息率失真函數的參量表達式

  • 平均失真度定義:
    \(\overline{D}=E\{d(X,Y)\}=\int^{\infty}_{-\infty}\int^{\infty}_{-\infty}p(xy)d(x,y)dxdy\)
    \(=\int^{\infty}_{-\infty}\int^{\infty}_{-\infty}p_X(x)p(x|y)d(x,y)dxdy\)
    式子中的p(y|x)為信道特征。滿足\(\int^{\infty}_{-\infty}p(y|x)dy=1\)

  • 連續信源的信息率失真函數相關定義
    \(R(D)=\inf_{p(y|x∈P_D)}I(X,Y)\)
    其中,inf表示下界。試驗集合為\(P_D:\{p(y|x),\overline{D}\le D\}\)

    連續信源的信息率失真函數具有離散信源的信息率失真函數的性質

2. 高斯信源的信息率失真函數

接着用反向信道的方法推導:

\[R(D)=\begin{cases}\frac12log\frac{\sigma_X^2}{D},D\le \sigma_X^2\\0, D>\sigma_X^2\end{cases} \]

當信源均值不為0時,仍有這個結果,因為高斯信源的熵只與隨機變量的方差有關,與均值無關

3. 信道容量與率失真函數的比較(對偶問題)

第五章

一. 信源編碼定理

1. 信源編碼相關概念

    • 分組碼: 將信源的輸出符號序列,分組處理的編碼
    • 非奇異碼:若分組碼中所有碼字不相同,稱為非奇異碼,否則稱為奇異碼
    • 如果一個碼的任何一個碼字都不是其他碼字的前綴,則稱該碼為前綴碼,異前置碼,異字頭碼,逗點碼,也稱即時碼。
    • 同價碼:每個碼符號所占的傳輸時間都相同

碼的分類:

2. 定長編碼定理:

  • 唯一可譯碼要求:碼的任意有限次擴展碼為 非奇異碼
    定長碼:只要是定長碼為非奇異碼,則必為 唯一可譯碼

    對一個簡單信源X進行定長編碼,信源X存在唯一可譯定長碼的條件是:
    \(n \le m^K\)
    其中,n為信源X的符號個數 ,m是碼符號數,K是定長碼的碼長

  • L次擴展信源的定長碼:
    對L次擴展信源進行定長編碼,若要編得定長碼是唯一可譯碼,則必須滿足:
    \(n^L\le m^K\)
    化簡可以得到: \(\frac KL \ge log_mn\) 這個公式效率不高!

  • 定長編碼定理:

    • 正定理
      一個熵為H(X)的離散無記憶信源,若對長度為L的信源符號序列進行等長編碼,設碼字是從m個碼符號集中選取的K個碼元組成。對任意的和 \(\varepsilon > 0, 1>\delta>0\) > 只要滿足:
      \(\frac{K*logm}L\ge H(X)+\varepsilon\)
      則當L足夠長,必可以使得譯碼差錯小於\(\delta\)
      這個公式可以提高編碼效率!
    • 逆定理
      反之,當\(\frac{K*logm}L \le H(X)-2\varepsilon\), 譯碼差錯一定大於\(\delta\) .
      當L -> ∞,譯碼差錯趨近於1
  • 編碼信息率
    編碼后平均每個信源符號能載荷的最大信息量

    \(R'=\frac{K*logm(K長碼字的最大信息量)}{L(信源符號的序列長度)}=\overline{K}*log\ m\) 單位:比特/信源

  • 編碼效率:
    編碼效率 = (要求平均每個信源符號攜帶的實際信息量) / (編碼后平均每個信源符號的最大可能載信息量) = 最小可能碼長 / 編碼后實際碼長

    對於等長編碼:
    \(\eta=\frac{H(X)}{R'}=\frac{H(X)}{H(X)+\varepsilon}\)

  • 編碼效率與擴展次數L的關系:
    當L足夠大的時候,必須使譯碼差錯小於\(\delta\) ,編碼效率才能趨於1
    當允許的錯誤概率\(P_E\)小於\(\delta\)的時候信源序列長度L必須有:
    \(L\ge \frac{\sigma^2(x)}{\varepsilon^2\delta}\)

    注意: \(\sigma^2(x)\) 就是信源的方差!

  • 定長編碼定理擴展
    可以推廣到有記憶信源上:
    只需要將H(X) 換成\(H_\infty(X)\)

3. 變長編碼定理(香農第一定理)

  • 變長編碼付出的代價和條件:
    代價:

    • 譯碼需要同步
    • 可能遇到譯碼延遲

    條件:

    • 變長碼必須是非奇異碼,而且任意有限長L次擴展碼也應該是非奇異碼
    • 為了能即時譯碼,變長碼必須是即時碼(任何一個碼字都不是其他碼字的前綴)
Kraft不等式

(描述了信源符號數和碼字長度之間滿足了什么條件才能構成即時碼)
m元長度為\(k_i(i=1,2,...,n)\)即時碼存在的充要條件是
\(\sum_{i=1}^nm^{-k_i}\le 1\)
這個式子稱為克拉夫特不等式

(即時碼一定滿足Kraft不等式,反之不一定!)

  • 平均碼長
    \(\overline{K}=\sum^n_{i=1}p(x_i)*k_i\) 單位:碼符號/信源符號
  • 緊致碼:對於給定的信源和碼符號集,若存在一個唯一可譯碼,其平均碼長小於所有其他唯一可譯碼的平均碼長,則稱為緊致碼(最佳碼)
  • 信息傳輸率:經過信源編碼后,平均每個碼符號所攜帶的信息量
    單位:比特/ 碼符號
    \(\frac{H(X)}{\overline{K}}=R\)
  • 信息傳輸速率:單位時間傳輸的信息量
    \(R_t = \frac{H(X)}{\overline{K}t}\) = R/ t 比特/秒
單符號信源的變長編碼定理

無記憶信源L次擴展信源的變長編碼定理

編碼效率

同樣:雖然是無記憶信源,但也可以擴展到有記憶信源:

只要將H(X)變換為無窮熵就行。

變長編碼的信息傳輸率等概念
  • 變長編碼的編碼信息率R'
    \(R'\triangleq \frac{\overline{K_L}}{Llog \ m}\)

    表示編碼后平均每個信源符號能載荷的最大信息量

  • 香農第一定理又可以表示為:
    \(H(X)\le R' <H(X)+\varepsilon\) ,就存在唯一可譯的變長編碼
    若R'大於H(X)。則不存在唯一可譯的變長編碼,不能實現無失真的信源編碼

  • 信息傳輸率 R
    \(R=\frac{H(X)}{\overline{K}}\) 比特/ 符號
    \(\overline{K}=\frac{\overline{K_L}}{log\ m}\)
    所以 \(R\le log \ m\)

  • 編碼效率和剩余度
    \(\eta=\frac{H(X)}{R'}=\frac{H(X)}{\overline{K}log\ m}\)

    定義剩余度為:
    \(\gamma=1-\eta=1-\frac{H_m(X)}{\overline{L}}\)

4. 香農第三定理

二. 信源編碼方法

1. 香農編碼

  • 編碼步驟

    1. 將信源符號按概率從大到小依次排列。

    2. \(p(x_0)=0\). 並用\(p_a(x_j)\)表示第j個碼字之前的累加概率
      即: \(p_a(x_j)=\sum^{j-1}_{i=0}p(x_i), j=1,...,n\)

    3. 確定滿足下列不等式的整數\(k_j\). 並令\(k_j\)為第j個碼字的長度
      \(-log\ p(x_j)\le k_j\ < 1-log\ p(x_j)\)

    4. 將累加概率\(p_a(x_j)\)用二進制表示,去除小數點,根據碼長並取小數點后共\(k_j\)位作為\(x_j\)的編碼

    5. 計算編碼效率。\(\eta\)= 要求平均每個信源符號傳遞的信息量/ 折算后,平均每個信源符號的最大可能載信量。
      \(\eta = \frac{H(X)}{\frac{\overline{L}*log\ m}{N}}\)

      \(\overline{L}\) 計算: 用概率*碼長累加(感覺就是平均碼長)

2. 費諾編碼

  • 編碼步驟:

    1. 將信源符號按概率從大到小依次排列,設排序后的消息分別記為:x1,x2,...,xn

    2. 將信源符號按概率分為若干組。使得每組的概率的和盡量接近或者相等。若編二元碼就分為兩組,編m元碼就分成 m 組

    3. 給每組分配一位碼元,碼元的分配可以是任意的

    4. 對每一分組按上述原則繼續分組,直到概率不可分

    5. 檢驗是否為即使碼。並計算編碼效率:

      \[\eta = \frac{H(X)}{\frac{\overline{L}*log\ m}{N}} \]

例子:

3. 霍夫曼編碼

  • 二元碼的編碼步驟如下:
    1. 將信源符號按概率從大到小依次排列,設排序后的消息分別記為:x1,x2,...,xn
    2. 給兩個概率最小的信源符號\(p(x_{n-1})\)\(p(x_n)\)各分配一個碼符號0 和 1.將這兩個信源符號合並成一個新符號,並用\(p(x_{n-1})+p(x_n)\) 作為新符號的概率,結果得到一個只包含n - 1個信源符號的新信源。將該信源稱為第一次縮減信源,用\(S_1\)表示
    3. 將縮減信源\(S_1\)的符號仍按概率從大到小的順序排列,重復步驟2,得到只含n-2個符號的縮減信源\(S_2\)
    4. 重復上述步驟,直到縮減信源只剩下兩個符號為止。此時所剩的兩個符號的概率之和必為1。然后從最后一級縮減信源開始,依編碼路徑向前返回,就得到各信源符號所對應的碼字

第六章

香農第二定理

  • 內容:
    加噪信道具有信道容量C, 即可以傳輸有用信息的最大速率。
    對於任何數據速率 R < C,都存在一種對數據進行編碼的方法,使錯誤概率任意小。

信道編碼

以提高通信可靠性為主要目的。
它是對信源編碼器輸出的最佳碼再進行一次編碼。以提高其抗干擾能力的一種編碼形式

  • 信道編碼算法/規則
    方法:按一定的規則給數字序列M增加一些多余的碼元,使不具有規律性的信息序列M變換為具有某種規則性的數字序列C

    基本思想: 根據相關性來檢測和糾正傳輸過程中產生的差錯。提高通信可靠性

  • 譯碼規則:
    X方有 r個 x, Y方有 s個y。則共有\(r^S\)種譯碼規則

  • 平均錯誤譯碼概率:

    \(P_E=\sum^s_{j=1}p(y_j)p(e|y_j)=\sum^s_{j=1}\{1-p[F(y_j)|y_j]\}\)

譯碼准則:

最大后驗概率譯碼規則:

最大似然准則

極大似然譯碼規則:
\(p(y_j|x^*)\ge p(y_j|x_i)\)
對每一列選擇最大的傳遞概率。對應的輸入符號,即為該輸出符號的譯碼函數

漢明距離

兩個碼字之間的漢明距離是對應位不同的數量。

測量將一個碼字轉換為另一個碼字所需的誤碼數量

  • 最小漢明距離確定接收器可以檢測或者糾正的最大誤碼位數

    若最小漢明距離是d。則接收器可以:

    • 對每個碼字檢錯但不糾錯最多d-1位
    • 檢錯並糾錯 (d - 1) / 2

校驗位編碼方法

基於奇偶校驗位編碼

(k+1, k, 2)碼
  • 給定k比特的信息, 可以通過添加1 比特來創建 (k+1, k, 2)分組碼
  • 選擇該位 以使碼字中的 (k + 1) 位之和為偶數
  • 同樣,如果k 個消息位的總和為 奇數, 則該位為 1, 否則為 0
  • 該位稱為奇偶校驗位
  • 生成的碼字具有偶校驗性

這樣可以檢測到單比特錯誤

(8, 4, 3)碼

向矩陣的每一行或每一列都添加一個奇偶校驗位Pi。
再重新排列這些比特形成最終的碼字

  • 校正位:
    校正位Si在接收到的碼字中檢查,Si = 1表示違反了奇偶校驗位Pi的條件

(9, 4, 4)碼


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM