條件熵定義的最原始形式
\[H(Y|X)=\sum_{x\in X} p(x)H(Y|X=x) \]
或者寫成這樣
\[H(Y|X)=\sum_{i=1}^{n} p(x_i)H(Y|X=x_i) \]
這里 \(n\) 表示隨機變量 \(X\) 取值的個數,不管是條件熵還是熵,都是計算 \(Y\) (可以理解為因變量)的熵,\(H(Y|X)\) 可以理解為在已知一些信息的情況下,因變量 \(Y\) 的不純度,即在
\(X\) 的划分下,\(Y\) 被分割越來越“純”的程度,即信息的加入可以降低熵。
這里又假設隨機變量 \(Y\) 有 \(m\) 個取值,將 \(H(Y|X=x_i)\) 用定義式
\[H(Y|X=x_i) = - \sum_{j=1}^{m} p(y_j|X=x_i)\log p(y_j|X=x_i)$$ 代入上式,得 \]
\begin{equation}\begin{split}
H(Y|X)&=\sum_{i=1}^{n} p(x_i)H(Y|X=x_i) \
&=\sum_{i=1}^{n} p(x_i)\left(- \sum_{j=1}^{m} p(y_j|X=x_i) \log p(y_j|X=x_i)\right)\
&=-\sum_{i=1}^{n}p(x_i) \sum_{j=1}^{m} p(y_j|x_i) \log p(y_j|x_i)
\end{split}\end{equation}
\[ 即 \]
H(Y|X)=\sum_{i=1}^{n} p(x_i)H(Y|X=x_i) =-\sum_{i=1}^{n}p(x_i) \sum_{j=1}^{m} p(y_j|x_i) \log p(y_j|x_i)
\[ + 條件熵表示在已知隨機變量 $X$ 的條件下,$Y$ 的**條件概率分布**的熵**對隨機變量 $X$**的數學期望。 + 熵是數學期望(信息量的數學期望),條件熵也是數學期望,是數學期望的數學期望,有點拗口,不妨把定義多看幾遍,就清楚了。\]
