信息冗余

维基百科,自由的百科全书
跳转至: 导航搜索

信息论中,信息冗余是传输消息所用数据位的数目与消息中所包含的实际信息的数据位的数目的差值。数据压缩是一种用来消除不需要的冗余的方法,校验和是在经过有限信道容量的噪声信道中通信,为了进行错误校正而增加冗余的方法。

定量定义[编辑]

信源信息率的普遍形式为

r=\mathbb E H(M_t|M_{t-1},M_{t-2},M_{t-3}, \dots),

根据前面的消息可以得到当前消息的期望的或者平均条件熵。在信息论中经常提及“信息率”或者“信息熵”,当信源是普通的英文文本时这是正确的。由于无记忆信源的消息之间没有相互依赖性,所以无记忆信源的信息率为 H(M)

信源的绝对信息率

R = \log |M| ,\,

即是消息空间基数对数值。这个公式也称作Hartley函数。这是传送用这个字母表表示的信息的最大信息率。其中对数要根据所用的测量单位选择合适的底数当且仅当信源是无记忆的且均匀分布的时候,绝对信息率等于信息率。

绝对信息冗余定义为

 D = R - r ,\,

即信息率与绝对信息率之间的差。

\frac D R 称为相对信息冗余,它表示了最大的数据压缩率,这个压缩率用文件大小减小比例所表示。当用原始文件与压缩后的文件表示的时候,R : r 表示能够得到的最大压缩率。与相对信息冗余互补的是效率\frac r R .。均匀分布的无记忆信源的冗余为 0,效率为 100%,因此无法压缩。

其它的冗余概念[编辑]

两个变量之间 冗余 的度量是互信息或者正规化变量。多个变量之间冗余的度量是总相关(total correlation)。

参见[编辑]

参考文献[编辑]

  • Fazlollah M. Reza. An Introduction to Information Theory. New York: McGraw-Hill 1961. New York: Dover 1994. ISBN 0-486-68210-2
  • B. Schneier, Applied Cryptography: Protocols, Algorithms, and Source Code in C. New York: John Wiley & Sons, Inc. 1996. ISBN 0-471-11709-0