互信息

维基百科,自由的百科全书
跳转至: 导航搜索
独立的(H(X),H(Y)), 联合的(H(X,Y)), 以及一对带有互信息 I(X; Y) 的相互关联的子系统 X,Y 的条件熵。

概率论信息论中,两个随机变量互信息(Mutual Information,简称MI)或转移信息(transinformation)是变量间相互依赖性的量度。不同于相关系数,互信息并不局限于实值随机变量,它更加一般且决定着联合分布 p(X,Y) 和分解的边缘分布的乘积 p(X)p(Y) 的相似程度。互信息是点间互信息英语Pointwise mutual information(PMI)的期望值。互信息最常用的单位bit

互信息的定义[编辑]

正式地,两个离散随机变量 XY 的互信息可以定义为:

 I(X;Y) = \sum_{y \in Y} \sum_{x \in X} 
                 p(x,y) \log{ \left(\frac{p(x,y)}{p(x)\,p(y)}
                              \right) }, \,\!

其中 p(x,y) 是 XY联合概率分布函数,而 p(x)p(y) 分别是 XY边缘概率分布函数。

连续随机变量的情形下,求和被替换成了二重定积分

 I(X;Y) = \int_Y \int_X 
                 p(x,y) \log{ \left(\frac{p(x,y)}{p(x)\,p(y)}
                              \right) } \; dx \,dy,

其中 p(x,y) 当前是 XY 的联合概率密度函数,而 p(x)p(y) 分别是 XY 的边缘概率密度函数。

如果对数以 2 为基底,互信息的单位是bit

直观上,互信息度量 XY 共享的信息:它度量知道这两个变量其中一个,对另一个不确定度减少的程度。例如,如果 XY 相互独立,则知道 X 不对 Y 提供任何信息,反之亦然,所以它们的互信息为零。在另一个极端,如果 XY 的一个确定性函数,且 Y 也是 X 的一个确定性函数,那么传递的所有信息被 XY 共享:知道 X 决定 Y 的值,反之亦然。因此,在此情形互信息与 Y(或 X)单独包含的不确定度相同,称作 Y(或 X)的。而且,这个互信息与 X 的熵和 Y 的熵相同。(这种情形的一个非常特殊的情况是当 XY 为相同随机变量时。)

互信息是 XY 联合分布相对于假定 XY 独立情况下的联合分布之间的内在依赖性。 于是互信息以下面方式度量依赖性:I(X; Y) = 0 当且仅当 XY 为独立随机变量。从一个方向很容易看出:当 XY 独立时,p(x,y) = p(x) p(y),因此:

 \log{ \left( \frac{p(x,y)}{p(x)\,p(y)} \right) } = \log 1 = 0. \,\!

此外,互信息是非负的(即 I(X;Y) ≥ 0; 见下文),而且是对称的英语Symmetric function(即 I(X;Y) = I(Y;X))。

与其他量的关系[编辑]

互信息又可以等价地表示成


\begin{align}
I(X;Y) & {} = H(X) - H(X|Y) \\ 
& {} = H(Y) - H(Y|X) \\ 
& {} = H(X) + H(Y) - H(X,Y) \\
& {} = H(X,Y) - H(X|Y) - H(Y|X)
\end{align}

其中 \ H(X)\ H(Y) 是边缘H(X|Y) 和 H(Y|X) 是条件熵,而 H(X,Y) 是 XY联合熵。注意到这组关系和并集、差集和交集的关系类似,于是用Venn图表示。

在互信息定义的基础上使用琴生不等式,我们可以证明 I(X;Y) 是非负的,因此 \ H(X) \ge H(X|Y)。这里我们给出 I(X;Y) = H(Y) - H(Y|X) 的详细推导:


\begin{align}
I(X;Y) & {} = \sum_{x,y} p(x,y) \log \frac{p(x,y)}{p(x)p(y)}\\ 
& {} = \sum_{x,y} p(x,y) \log \frac{p(x,y)}{p(x)} - \sum_{x,y} p(x,y) \log p(y)  \\ 

& {} = \sum_{x,y} p(x)p(y|x) \log p(y|x) - \sum_{x,y} p(x,y) \log p(y) \\
& {} = \sum_x p(x) \left(\sum_y p(y|x) \log p(y|x)\right) - \sum_y \log p(y) \left(\sum_x p(x,y)\right) \\

& {} = -\sum_x p(x) H(Y|X=x) - \sum_y \log p(y) p(y) \\
& {} = -H(Y|X) + H(Y)  \\
& {} = H(Y) - H(Y|X).  \\
\end{align}

上面其他性质的证明类似。

直观地说,如果把熵 H(Y) 看作一个随机变量不确定度的量度,那么 H(Y|X) 就是 X 没有涉及到的 Y 的部分的不确定度的量度。这就是“在 X 已知之后 Y 的剩余不确定度的量”,于是第一个等式的右边就可以读作“Y的不确定度,减去在 X 已知之后 Y 的剩余不确定度的量”,此式等价于“移除知道 XY 的不确定度的量”。这证实了互信息的直观意义为知道其中一个变量提供的另一个的信息量(即不确定度的减少量)。

注意到离散情形 H(X|X) = 0,于是 H(X) = I(X;X)。因此 I(X;X) ≥ I(X;Y),我们可以制定”一个变量至少包含其他任何变量可以提供的与它有关的信息“的基本原理。

互信息也可以表示为两个随机变量的边缘分布 XY 的乘积 p(x) × p(y) 相对于随机变量的联合熵 p(x,y) 的相对熵

 I(X;Y) = D_{\mathrm{KL}}(p(x,y)\|p(x)p(y)).

此外,令 p(x|y) = p(x, y) / p(y)。则


\begin{align}
I(X;Y) & {} = \sum_y p(y) \sum_x p(x|y) \log_2 \frac{p(x|y)}{p(x)} \\
& {} =  \sum_y p(y) \; D_{\mathrm{KL}}(p(x|y)\|p(x)) \\
& {} = \mathbb{E}_Y\{D_{\mathrm{KL}}(p(x|y)\|p(x))\}.
\end{align}

注意到,这里相对熵涉及到仅对随机变量 X 积分,表达式 D_{\mathrm{KL}}(p(x|y)\|p(x)) 现在以 Y 为变量。于是换信息也可以理解为相对熵 X 的单变量分布 p(x) 相对于给定 YX条件分布 p(x|y) :分布 p(x|y) 和 p(x) 之间的平均差异越大,信息增益越大。

参见[编辑]

注释[编辑]


参考文献[编辑]