# 熵 (資訊理論)

2 bit的熵。

## 定義

${\displaystyle \mathrm {H} (X)=\mathrm {E} [\mathrm {I} (X)]=\mathrm {E} [-\ln(\mathrm {P} (X))]}$

${\displaystyle \mathrm {H} (X)=\sum _{i}{\mathrm {P} (x_{i})\,\mathrm {I} (x_{i})}=-\sum _{i}{\mathrm {P} (x_{i})\log _{b}\mathrm {P} (x_{i})},}$

pi = 0時，對於一些i值，對應的被加數0 logb 0的值將會是0，這與極限一致。

${\displaystyle \lim _{p\to 0+}p\log p=0}$

${\displaystyle \mathrm {H} (X|Y)=-\sum _{i,j}p(x_{i},y_{j})\log {\frac {p(x_{i},y_{j})}{p(y_{j})}}}$

## 範例

${\displaystyle I_{e}=-\log _{2}{p_{i}}}$（對數以2為底，單位是位元（bit））
${\displaystyle I_{e}=-\ln {p_{i}}}$（對數以${\displaystyle e}$為底，單位是納特/nats）

${\displaystyle I_{e}=-\log _{2}{1 \over 26}=4.7}$

${\displaystyle I_{e}=-\log _{2}{1 \over 50}=5.64}$

${\displaystyle I_{e}=-\log _{2}{1 \over 2500}=11.3}$

${\displaystyle H_{s}=\sum _{i=1}^{n}p_{i}I_{e}=-\sum _{i=1}^{n}p_{i}\log _{2}p_{i}}$

## 熵的特性

${\displaystyle -K\sum _{i=1}^{n}p_{i}\log(p_{i})}$

### 對稱性

${\displaystyle \mathrm {H} _{n}\left(p_{1},p_{2},\ldots \right)=\mathrm {H} _{n}\left(p_{2},p_{1},\ldots \right)}$等。

### 極值性

${\displaystyle \mathrm {H} _{n}(p_{1},\ldots ,p_{n})\leq \mathrm {H} _{n}\left({\frac {1}{n}},\ldots ,{\frac {1}{n}}\right)=\log _{b}(n)}$

${\displaystyle \mathrm {H} _{n}{\bigg (}\underbrace {{\frac {1}{n}},\ldots ,{\frac {1}{n}}} _{n}{\bigg )}=\log _{b}(n)<\log _{b}(n+1)=\mathrm {H} _{n+1}{\bigg (}\underbrace {{\frac {1}{n+1}},\ldots ,{\frac {1}{n+1}}} _{n+1}{\bigg )}.}$

### 可加性

${\displaystyle \mathrm {H} _{n}\left({\frac {1}{n}},\ldots ,{\frac {1}{n}}\right)=\mathrm {H} _{k}\left({\frac {b_{1}}{n}},\ldots ,{\frac {b_{k}}{n}}\right)+\sum _{i=1}^{k}{\frac {b_{i}}{n}}\,\mathrm {H} _{b_{i}}\left({\frac {1}{b_{i}}},\ldots ,{\frac {1}{b_{i}}}\right)}$

## 進一步性質

• 增減一機率為零的事件不改變熵：
${\displaystyle \mathrm {H} _{n+1}(p_{1},\ldots ,p_{n},0)=\mathrm {H} _{n}(p_{1},\ldots ,p_{n})}$
${\displaystyle \mathrm {H} (X)=\operatorname {E} \left[\log _{b}\left({\frac {1}{p(X)}}\right)\right]\leq \log _{b}\left(\operatorname {E} \left[{\frac {1}{p(X)}}\right]\right)=\log _{b}(n)}$

• 計算 (X,Y)得到的熵或資訊量（即同時計算XY）等於通過進行兩個連續實驗得到的資訊：先計算Y的值，然後在你知道Y的值條件下得出X的值。寫作
${\displaystyle \mathrm {H} (X,Y)=\mathrm {H} (X|Y)+\mathrm {H} (Y)=\mathrm {H} (Y|X)+\mathrm {H} (X)}$
• 如果Y=f(X)，其中f是確定性的，那麼Η(f(X)|X) = 0。應用前一公式Η(X, f(X))就會產生
${\displaystyle \mathrm {H} (X)+\mathrm {H} (f(X)|X)=\mathrm {H} (f(X))+\mathrm {H} (X|f(X)),}$

• 如果XY是兩個獨立實驗，那麼知道Y的值不影響我們對X值的認知（因為兩者獨立，所以互不影響）：
${\displaystyle \mathrm {H} (X|Y)=\mathrm {H} (X)}$
• 兩個事件同時發生的熵不大於每個事件單獨發生的熵的總和，且僅當兩個事件是獨立的情況下相等。更具體地說，如果XY是同一機率空間的兩個隨機變量，而 (X,Y)表示它們的笛卡爾積，則
${\displaystyle \mathrm {H} (X,Y)\leq \mathrm {H} (X)+\mathrm {H} (Y)}$

## 參考

1. ^ Shannon, Claude E. A Mathematical Theory of Communication. Bell System Technical Journal. July 1948, 27 (3): 379–423. doi:10.1002/j.1538-7305.1948.tb01338.x. hdl:10338.dmlcz/101429. (PDF, archived from here)
2. ^ Shannon, Claude E. A Mathematical Theory of Communication. Bell System Technical Journal. October 1948, 27 (4): 623–656. doi:10.1002/j.1538-7305.1948.tb00917.x. hdl:11858/00-001M-0000-002C-4317-B. (PDF, archived from here)
3. ^ Douglas Robert Stinson; Maura Paterson. 第2.4节“熵”. Cryptography Theory and Practice [密碼學理論與實踐] 2.
4. ^ 詹姆斯·格雷克. 第9章“熵及其妖”. The Information: A History, a Theory, a Flood [資訊簡史]. 高博 (翻譯), 樓偉珊 (審校), 高學棟 (審校), 李松峰 (審校) 1. 人民郵電出版社. 2013: 265. ISBN 978-7-115-33180-9 （中文（中國大陸））. 根據在貝爾實驗室里流傳的一個說法，是約翰·馮·諾依曼建議夏農使用這個詞，因為沒有人懂這個詞的意思，所以他與人爭論時可以無往而不利。這件事雖然子虛烏有，但聽起來似乎有點道理。