前置知识
上述公式是自信息量公式,该单位取决于对数的底,若以2为底,则单位为比特(bit),以e为底,单位为奈特,以10为底,单位为哈特。通常我们取比特为单位。
熵
熵是从整个集合的统计特性来考虑的,他从平均意义上来表征信源的总体特征。
公式如下:
信息熵具有以下两个物理含义:
1.表示信源输出前,信源的平均不确定性。
2.表示信源输出后,每个符号所携带的平均信息量。
熵的单位同样取决于对数所取的底,若以2为底,单位为比特/符号。
自信息量
自信息量用只是表征信源中各个符号的不确定度,对于一个信源而言,由于存在多个不同的符号信息,所以一个信源的总信息量等于消息中各个符号的自信息之和。
I = n1*I(x=1)+n2*(x=2)+...
对于一个消息中平均每个符号携带的信息量为:总信息量/符号个数 (单位为:比特/符号)。
但是对于该信源中平均每个符号携带的信息量为:
注意:自信息量不能作为信源的总体信息量。
自信息不是熵。
联合熵与条件熵
对于一个随机变量X的熵的定义为:
对于两个随机变量X,Y的熵的定义为,我们称之为联合熵:
推广至多个随机变量Xi:
对于两个随机变量X,Y,他们之间可能存在相关关系,所以对于给定 Y=yj,此时X的熵,我们称之为条件熵:
X关于Y的条件熵定义为:
根据公式我们可以推导出:
H(X):表示信源中每个符号的平均信息量(信源熵)
H(Y):表示信宿中每个符号的平均信息量(信宿熵)
H(X|Y):表示在输出端接收到Y的全部符号后,发送端X尚存的平均不确定性。这个对X尚存的不确定性是由于干扰引起的。信道疑义度(损失熵,含糊度)
H(Y|X):表示在已知X的全部符号后,对于输出Y尚存的平均不确定性。信道散布度(噪声熵)
H(XY):表示整个信息传输系统的平均不确定性(联合熵)
熵之间的相互关系
H(X,Y) = H(X) + H(Y|X)
H(X,Y) = H(Y) + H(X|Y)
H(X) >= H(X|Y)
H(Y) >= H(Y|X)
H(X,Y) <= H(X) + H(Y)
信息熵的基本性质
1.对称性:H(P) 的取值与分量 P1,P2,...,Pq的顺序无关(熵之和总体统计特性有关)
2.确定性:H(1,0)=H(1,0,0)=H(1,0,0,...,0)=0(当一个信源是一个确知信源时,其熵为0)
3.非负性:H(P)>=0 因为 0<Pi<1 所以 log(Pi)<0 -Pi*log(Pi)>0 ,所以熵不为负值
4.扩展性:
5.可加性:对于两个相互独立的信源的联合熵等于单个信源的熵之和 H(X,Y) = H(X) + H(Y)
6.强可加性:对于两个相互关联的信源的联合熵等于信源X的熵加上在X已知条件下信源Y的条件熵 H(X,Y) = H(X) + H(Y)
7.递增性:若原信源 X 中有一个符号分割成了m个元素(符号),这m个元素的概率之和等于原元素的概率,而其他符号的概率不变,则新信源的熵增加,其增加量等于由分割而产生的不确定性量。
8.上凸性:熵函数H(P)是概率矢量P=(p1,p2, …,pq)的严格∩型凸函数(或称上凸函数)
9.极值性:
最大离散熵定理:在离散信源情况下,信源各符号等概率分布时,熵值达到最大
连续性随机变量的熵
信息的类型分为两种,一种是离散型的,一种是连续型的,这两种形式我们在概率统计学上都有一定的了解,而不同的信息也对应着不同类型的熵。
有上文我们得知,离散型随机变量对应的熵为:
那么连续型随机变量对应的熵呢?
现在我们假设有一个连续随机变量X,其取值范围为 [a,b] ,而其概率分布密度函数为 p(x) ,由此我们可以得到统计学上的等式:
接着我们根据微分的思想,将 [a,b] 区间分成 n 个等长的小区间,令 = (b-a)/n ,则可以得到一组序列 {
} ,有:
根据中值定理以及概率分布的定义,我们可以求得n个x对应的区间概率:
于是通过上述操作我们就将一个连续型信源信号转换成了一个离散型信源信号。