條件熵定義

本文轉載自查看原文 2018-11-08 09:56 1085

條件熵定義的最原始形式

\[H(Y|X)=\sum_{x\in X} p(x)H(Y|X=x) \]

或者寫成這樣

\[H(Y|X)=\sum_{i=1}^{n} p(x_i)H(Y|X=x_i) \]

這里 $n$ 表示隨機變量 $X$ 取值的個數，不管是條件熵還是熵，都是計算 $Y$ （可以理解為因變量）的熵，$H(Y|X)$ 可以理解為在已知一些信息的情況下，因變量 $Y$ 的不純度，即在
$X$ 的划分下，$Y$ 被分割越來越“純”的程度，即信息的加入可以降低熵。

這里又假設隨機變量 $Y$ 有 $m$ 個取值，將 $H(Y|X=x_i)$ 用定義式

\[H(Y|X=x_i) = - \sum_{j=1}^{m} p(y_j|X=x_i)\log p(y_j|X=x_i)$$ 代入上式，得 \]

\begin{equation}\begin{split}
H(Y|X)&=\sum_{i=1}^{n} p(x_i)H(Y|X=x_i) \
&=\sum_{i=1}^{n} p(x_i)\left(- \sum_{j=1}^{m} p(y_j|X=x_i) \log p(y_j|X=x_i)\right)\
&=-\sum_{i=1}^{n}p(x_i) \sum_{j=1}^{m} p(y_j|x_i) \log p(y_j|x_i)
\end{split}\end{equation}

\[ 即 \]

H(Y|X)=\sum_{i=1}^{n} p(x_i)H(Y|X=x_i) =-\sum_{i=1}^{n}p(x_i) \sum_{j=1}^{m} p(y_j|x_i) \log p(y_j|x_i)

\[ + 條件熵表示在已知隨機變量 $X$ 的條件下，$Y$ 的**條件概率分布**的熵**對隨機變量 $X$**的數學期望。 + 熵是數學期望（信息量的數學期望），條件熵也是數學期望，是數學期望的數學期望，有點拗口，不妨把定義多看幾遍，就清楚了。\]

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 熵與條件熵熵，條件熵，相對熵，互信息的相關定義及公式推導信息熵和條件熵通俗理解條件熵條件熵（轉）熵、聯和熵與條件熵、交叉熵與相對熵是什么呢？詳細解讀這里有！詳解機器學習中的熵、聯合熵、條件熵、相對熵和交叉熵詳解機器學習中的熵、條件熵、相對熵和交叉熵信息，熵，聯合熵，條件熵，互信息（信息增益），交叉熵，相對熵（KL散度）信息熵、相對熵（KL散度）、交叉熵、條件熵、互信息、聯合熵