相对熵

维基百科,自由的百科全书
跳转至: 导航搜索

相对熵(relative entropy)又称为KL散度Kullback–Leibler divergence,簡稱KLD[1],信息散度(information divergence),信息增益(information gain)。


KL散度是两个概率分布P和Q差别的非对称性的度量。 KL散度是用来 度量使用基于Q的编码来编码来自P的样本平均所需的额外的位元数。 典型情况下,P表示数据的真实分布,Q表示数据的理论分布,模型分布,或P的近似分布。

定義[编辑]

對於离散隨機变量,其概率分布PQ的KL散度可按下式定義為

D_{\mathrm{KL}}(P\|Q) = \sum_i P(i) \ln \frac{P(i)}{Q(i)}. \!

即按概率P求得的PQ對數差的平均值。KL散度僅當概率PQ各自總和均為1,且對於任何i皆滿足Q(i)>0P(i)>0時,才有定義。式中出現0 \ln 0的情況,其值按0處理。

對於連續隨機變量,其概率分佈PQ可按積分方式定義為 [2]

D_{\mathrm{KL}}(P\|Q) = \int_{-\infty}^\infty p(x) \ln \frac{p(x)}{q(x)} \, {\rm d}x, \!

其中pq分別表示分佈PQ的密度。

更一般的,若PQ為集合X的概率測度,且Q關於P絕對連續,則從PQ的KL散度定義為

 D_{\mathrm{KL}}(P\|Q) = -\int_X \ln \frac{{\rm d}Q}{{\rm d}P} \,{\rm d}P, \!

其中,假定右側的表達形式存在,則\frac{{\rm d}Q}{{\rm d}P} Q關於PR–N導數

相應的,若P關於Q絕對連續,則

 D_{\mathrm{KL}}(P\|Q) = \int_X \ln \frac{{\rm d}P}{{\rm d}Q} \,{\rm d}P
                      = \int_X \frac{{\rm d}P}{{\rm d}Q} \ln\frac{{\rm d}P}{{\rm d}Q}\,{\rm d}Q,

即為P關於Q的相對熵。

特性[编辑]

相對熵的值為非負數:

D_{\mathrm{KL}}(P\|Q) \geq 0, \,

吉布斯不等式en:Gibbs' inequality)可知,當且僅當P = QDKL(P||Q)為零。

尽管从直觉上KL散度是个度量或距离函数, 但是它实际上并不是一个真正的度量或距離。因為KL散度不具有对称性:从分布PQ的距离(或度量)通常并不等于从QP的距离(或度量)。

D_{\mathrm{KL}}(P\|Q) \neq D_{\mathrm{KL}}(Q\|P)


KL散度和其它量的关系[编辑]

自信息en:self-information)和KL散度

I(m) = D_{\mathrm{KL}}(\delta_{im} \| \{ p_i \}),


互信息en:Mutual information)和KL散度

\begin{align}I(X;Y) & = D_{\mathrm{KL}}(P(X,Y) \| P(X)P(Y) ) \\
& = \mathbb{E}_X \{D_{\mathrm{KL}}(P(Y|X) \| P(Y) ) \} \\
& = \mathbb{E}_Y \{D_{\mathrm{KL}}(P(X|Y) \| P(X) ) \}\end{align}


信息熵en: Shannon entropy)和KL散度

\begin{align}H(X) & = \mathrm{(i)} \, \mathbb{E}_x \{I(x)\} \\
& = \mathrm{(ii)} \log N - D_{\mathrm{KL}}(P(X) \| P_U(X) )\end{align}


条件熵en:conditional entropy)和KL散度

\begin{align}H(X|Y) & = \log N - D_{\mathrm{KL}}(P(X,Y) \| P_U(X) P(Y) ) \\
& = \mathrm{(i)} \,\, \log N - D_{\mathrm{KL}}(P(X,Y) \| P(X) P(Y) ) - D_{\mathrm{KL}}(P(X) \| P_U(X)) \\
& = H(X) - I(X;Y) \\
& = \mathrm{(ii)} \, \log N - \mathbb{E}_Y \{ D_{\mathrm{KL}}(P(X|Y) \| P_U(X)) \}\end{align}


交叉熵en:cross entropy)和KL散度

\mathrm{H}(p, q) = \mathrm{E}_p[-\log q] = \mathrm{H}(p) + D_{\mathrm{KL}}(p \| q).\!

參考文獻[编辑]

  1. ^ Kullback, S.; Leibler, R.A.. On Information and Sufficiency. Annals of Mathematical Statistics. 1951, 22 (1): 79–86. doi:10.1214/aoms/1177729694. MR 39968. 
  2. ^ C. Bishop (2006). Pattern Recognition and Machine Learning. p. 55.