条件熵

维基百科,自由的百科全书
跳转至: 导航搜索

信息论中,条件熵描述了在已知第二个随机变量 X 的值的前提下,随机变量 Y 的信息熵还有多少。同其它的信息熵一样,条件熵也用Sh、nat、Hart等信息单位表示。基于 X 條件的 Y 的信息熵,用 \Eta(Y|X) 表示。

定义[编辑]

如果 \Eta(Y|X=x) 爲變數 Y 在變數 X 取特定值 x 條件下的熵,那麼 \Eta(Y|X) 就是 \Eta(Y|X=x)X 取遍所有可能的 x 後取平均的結果。

给定随机变量 XY,定義域分別爲 \mathcal X\mathcal Y,在給定 X 條件下 Y 的條件熵定義爲:[1]


\begin{align}
\Eta(Y|X)\ &\equiv \sum_{x\in\mathcal X}\,p(x)\,\Eta(Y|X=x)\\
& =-\sum_{x\in\mathcal X} p(x)\sum_{y\in\mathcal Y}\,p(y|x)\,\log\, p(y|x)\\
& =-\sum_{x\in\mathcal X}\sum_{y\in\mathcal Y}\,p(x,y)\,\log\,p(y|x)\\
& =-\sum_{x\in\mathcal X, y\in\mathcal Y}p(x,y)\log\,p(y|x)\\
& =-\sum_{x\in\mathcal X, y\in\mathcal Y}p(x,y)\log \frac {p(x,y)} {p(x)}. \\
& = \sum_{x\in\mathcal X, y\in\mathcal Y}p(x,y)\log \frac {p(x)} {p(x,y)}. \\
\end{align}

注意: 可以理解,對於確定的 c>0,表達式 0 log 0 和 0 log (c/0) 應被認作等於零。

當且僅當 Y 的值完全由 X 確定時,\Eta(Y|X)=0。相反,當且僅當 YX獨立隨機變數\Eta(Y|X) = \Eta(Y)

链式法则[编辑]

假設兩個隨機變數 XY 確定的組合系統的聯合熵\Eta(X,Y),即我們需要 \Eta(X,Y) bit的信息來描述它的確切狀態。 現在,若我們先學習 X 的值,我們得到了 \Eta(X) bits的信息。 一旦知道了 X,我們衹需 \Eta(X,Y)-\Eta(X) bits來描述整個系統的狀態。 這個量正是 \Eta(Y|X),它給出了條件熵的链式法则

\Eta(Y|X)\,=\,\Eta(X,Y)-\Eta(X) \, .

链式法则接著上面條件熵的定義:


\begin{align}
\Eta(Y|X)&= \sum_{x\in\mathcal X, y\in\mathcal Y}p(x,y)\log \frac {p(x)} {p(x,y)}\\
&= -\sum_{x\in\mathcal X, y\in\mathcal Y}p(x,y)\log\,p(x,y) + \sum_{x\in\mathcal X, y\in\mathcal Y}p(x,y)\log\,p(x)\\
&=  \Eta(X,Y) + \sum_{x \in \mathcal X} p(x)\log\,p(x)\\
&=  \Eta(X,Y) - \Eta(X).
\end{align}

貝葉斯規則[编辑]

條件熵的貝葉斯規則英语Bayes' rule表述爲

H(Y|X) \,=\, H(X|Y) - H(X) + H(Y) \,.

證明. H(Y|X) = H(X,Y) - H(X) and H(X|Y) = H(Y,X) - H(Y)。對稱性意味著 H(X,Y) = H(Y,X)。將兩式相減即爲貝葉斯規則。

推广到量子理论[编辑]

量子信息论中,条件熵都概括为量子条件熵

參考文獻[编辑]

  1. ^ Cover, Thomas M.; Thomas, Joy A. Elements of information theory 1st. New York: Wiley. 1991. ISBN 0-471-06259-6.