信息论

维基百科,自由的百科全书
跳转至: 导航搜索

信息论英语information theory)是运用概率论数理统计的方法研究信息信息熵通信系统数据传输密码学数据压缩等问题的应用数学学科。

信息论将信息的传递作为一种统计现象来考虑,给出了估算通信信道容量的方法。信息传输和信息压缩是信息论研究中的两大领域。这两个方面又由信道编码定理信源-信道隔离定理相互联系。

简述[编辑]

信息论的主要内容可以类比人类最广泛的交流手段——语言来阐述。

一种简洁的语言(以英语为例)通常有两个重要特点: 首先,最常用的词(比如"a"、"the"、"I")应该比不太常用的词(比如"benefit"、"generation"、"mediocre")要短一些;其次,如果句子的某一部分被漏听或者由于噪声干扰(比如一辆车辆疾驰而过)而被误听,听者应该仍然可以抓住句子的大概意思。而如果把电子通信系统比作一种语言的话,这种健壮性(robustness)是不可或缺的。将健壮性引入通信是通过信道编码完成的。信源编码和信道编码是信息论的基本研究课题。

注意这些内容同消息的重要性之间是毫不相干的。例如,像“多谢;常来”这样的客套话与像“救命”这样的紧急请求在说起来、或者写起来所花的时间是差不多的,然而明显后者更重要,也更有实在意义。信息论却不考虑一段消息的重要性或内在意义,因为这些是数据的质量的问题而不是数据量(数据的长度)和可读性方面上的问题,后者只是由概率这一因素单独决定的。

消息I(Information)[编辑]

一離散行隨機實驗,其各結果為獨立的

 r.v.S \in {s_1,s_2,s_3...} p(S=s)=p_k, \sum_{k}p_k=1

故事件S=s_k,出現機率為p_k的消息量

 I(S_k)\equiv log_2(\frac{1}{p_k})=-log_2(p_k)

單位:bit(位元)

信息熵(Entropy)[编辑]

美國數學家克劳德·香农(Claude Shannon)被称为“信息论之父”。人们通常将香农于1948年10月发表于《贝尔系统技术学报》上的论文《通信的数学理论》(A Mathematical Theory of Communication)作为现代信息论研究的开端。这一文章部分基于哈里·奈奎斯特(Harry Nyquist)和拉尔夫·哈特利(Ralph Hartley)於1920年代先後發表的研究成果。在该文中,香农给出了信息熵(Information Entropy,以下简称为“熵”)的定义:

H(S)=E[I(S_k)] =-\sum_{k}^{}p_k I(S_k)

 = \sum_{k}^{}p_k log_2(\frac{1}{p_k})

信息熵度量的是作为信源的随机系统的不确定程度。

信息论中熵的概念与物理学中的热力学熵有着紧密的联系。玻尔兹曼(Ludwig Boltzmann)与吉布斯(Josiah Willard Gibbs)在统计物理学中对熵做了很多的工作。信息论中的熵也正是受之启发。

性質[编辑]

1.  H(S^n) = nH(S)

2.  0 \le H(S) \le log_2 N N:信號符號數

例子[编辑]

若S為一個三個面的骰子,

P(面一)=1/5,

P(面二)=2/5,

P(面三)=2/5

 H(S)=\frac{1}{5}log_2 (5)+\frac{2}{5}log_2(\frac{5}{2})+\frac{2}{5}log_2(\frac{5}{2})

互信息[编辑]

互信息(Mutual Information)是另一有用的信息度量,它是指两个事件集合之间的相关性。两个事件XY的互信息定义为:

I(X, Y) = H(X) + H(Y) - H(X, Y)

其中 H(X, Y)联合熵(Joint Entropy),其定义为:

H(X, Y) = - \sum_{x, y}^{} p(x, y) \log p(x, y)

互信息与多元对数似然比检验以及皮尔森χ2校验有着密切的联系。

应用[编辑]

信息论被广泛应用在:

参考文献[编辑]

外部链接[编辑]