| 此條目需要 精通或熟悉相關主題的編者參與及協助編輯。 (2018年2月2日) 請邀請適合的人士改善本條目。更多的細節與詳情請參見討論頁。 |
在資訊理論中,基於相同事件測度的兩個概率分布
和
的交叉熵(英語:Cross entropy)是指,當基於一個「非自然」(相對於「真實」分布
而言)的概率分布
進行編碼時,在事件集合中唯一標識一個事件所需要的平均比特數(bit)。
給定兩個概率分布
和
,
相對於
的交叉熵定義為:
![{\displaystyle H(p,q)=\operatorname {E} _{p}[-\log q]=H(p)+D_{\mathrm {KL} }(p\|q),\!}](https://wikimedia.org/api/rest_v1/media/math/render/svg/80bd13c723dce5056a6f3aa1b29e279fb90d40bd)
其中
是
的熵,
是從
與
的KL散度(也被稱為p相對於q的相對熵)。
對於離散分布
和
,這意味著:

對於連續分布也是類似的。我們假設
和
在測度
上是絕對連續的(通常
是Lebesgue measure on a Borel σ-algebra)。設
和
分別為
和
在測度
上概率密度函數。則
![{\displaystyle -\int _{X}P(x)\,\log Q(x)\,dr(x)=\operatorname {E} _{p}[-\log Q].\!}](https://wikimedia.org/api/rest_v1/media/math/render/svg/9e8682bc3c75a03bcabd64652ec421cadc4ea76b)
在資訊理論中, 以直接可解編碼模式通過值
編碼一個信息片段,使其能在所有可能的
集合中唯一標識該信息片段,Kraft–McMillan theorem確保這一過程可以被看作一種
上的隱式概率分布
,從而使得
是
的編碼位長度。 因此, 交叉熵可以看作每個信息片段在錯誤分布
下的期望編碼位長度,而信息實際分布為
。這就是期望
是基於
而不是
的原因。
![{\displaystyle H(p,q)=\operatorname {E} _{p}[l_{i}]=\operatorname {E} _{p}\left[\log {\frac {1}{q(x_{i})}}\right]}](https://wikimedia.org/api/rest_v1/media/math/render/svg/374e8c67971e6177b0123302c419a34cc5adc8c2)


在大多數情況下,我們需要在不知道分布
的情況下計算其交叉熵。例如在語言模型中, 我們基於訓練集
創建了一個語言模型, 而在測試集合上通過其交叉熵來評估該模型的準確率。
是語料中詞彙的真實分布,而
是我們獲得的語言模型預測的詞彙分布。由於真實分布是未知的,我們不能直接計算交叉熵。在這種情況下,我們可以通過下式來估計交叉熵:

是測試集大小,
是在訓練集上估計的事件
發生的概率。我們假設訓練集是從
的真實採樣,則此方法獲得的是真實交叉熵的蒙特卡洛估計。