夏農–菲諾–以利亞碼

維基百科，自由的百科全書

在信息論中，夏農–菲諾–以利亞碼是算術編碼的先導，其機率被用於決定碼字。

演算法描述

給定一離散隨機變數 X ，令 $p(x)$ 為 X=x 發生之機率。

定義

{\bar {F}}(x)=\sum _{x_{i}<x}p(x_{i})+{\frac {1}{2}}p(x)

演算法如下：

對每個 X 中的 x，

令 Z 為

{\bar {F}}(x)

之二次展開

令 x 之編碼長度

L(x)=\left\lceil \log _{2}{\frac {1}{p(x)}}\right\rceil +1

選定 x 之編碼，

code(x)

為

L(x)

在 Z 之小數點後之第一個最高有效位。

舉例

令 X = {A, B, C, D} ，其發生機率分別為 p = {1/3, 1/4, 1/6, 1/4} 。

對於 A

{\bar {F}}(A)={\frac {1}{2}}p(A)={\frac {1}{2}}\cdot {\frac {1}{3}}=0.1666...

在二進位中， Z(A) = 0.0010101010...

L(A) =

\left\lceil \log _{2}{\frac {1}{\frac {1}{3}}}\right\rceil +1

= 3

code(A) 為 001

對於 B

{\bar {F}}(B)=p(A)+{\frac {1}{2}}p(B)={\frac {1}{3}}+{\frac {1}{2}}\cdot {\frac {1}{4}}=0.4583333...

在二進位中， Z(B) = 0.01110101010101...

L(B) =

\left\lceil \log _{2}{\frac {1}{\frac {1}{4}}}\right\rceil +1

= 3

code(B) 為 011

對於 C

{\bar {F}}(C)=p(A)+p(B)+{\frac {1}{2}}p(C)={\frac {1}{3}}+{\frac {1}{4}}+{\frac {1}{2}}\cdot {\frac {1}{6}}=0.66666...

在二進位中， Z(C) = 0.101010101010...

L(C) =

\left\lceil \log _{2}{\frac {1}{\frac {1}{6}}}\right\rceil +1

= 4

code(C) 為 1010

對於 D

{\bar {F}}(D)=p(A)+p(B)+p(C)+{\frac {1}{2}}p(D)={\frac {1}{3}}+{\frac {1}{4}}+{\frac {1}{6}}+{\frac {1}{2}}\cdot {\frac {1}{4}}=0.875

在二進位中， Z(D) = 0.111

L(D) =

\left\lceil \log _{2}{\frac {1}{\frac {1}{4}}}\right\rceil +1

= 3

code(D) 為 111

演算法分析

前綴碼

夏農–菲諾–以利亞碼之輸出為二進位前綴碼，因此可被直接解碼。

令 bcode(x) 為二進位表示法最左側加入小數點而成之小數。舉例而言， code(C)=1010 ，則 bcode(C) = 0.1010 。對所有 x ，如果沒有任何 y 存在使得

bcode(x)\leq bcode(y)<bcode(x)+2^{-L(x)}

則所有的碼可構成前綴碼。

此性質可透過比較 F 和 X 之累積分布函數，以圖表示出：

由 L 之定義可得

2^{-L(x)}\leq {\frac {1}{2}}p(x)

並且由於 code(y) 是由 F(y) 從 L(y) 之後的位元截短而得，故

{\bar {F}}(y)-bcode(y)\leq 2^{-L(y)}

因此 bcode(y) 必不比 CDF(x) 小。

上圖說明了 $bcode(y)-bcode(x)>p(x)\geq 2^{-L(x)}$ ，因此前綴碼定理成立。

編碼長度

此碼之平均長度為 $LC(X)=\sum _{x\epsilon X}p(x)L(x)=\sum _{x\epsilon X}p(x)(\left\lceil \log _{2}{\frac {1}{p(x)}}\right\rceil +1)$ 。
因隨機變數 X 之熵 H(X) 滿足

H(X)+1\leq LC(X)<H(X)+2

夏農–菲諾–以利亞碼之長度約比代編碼資料之熵長約一到二額外位元，故甚少被實用。

參考書目

T. M. Cover and Joy A. Thomas (2006). Elements of information theory (2nd ed.). John Wiley and Sons. pp. 127–128.

資料壓縮方法

理論

非破壞性資料壓縮

熵編碼	算術編碼非對稱數字系統編碼（英語：Asymmetric numeral systems）格倫布編碼霍夫曼編碼適應性范型改進區間編碼香農編碼（英語：Shannon coding）香農-法諾編碼香農-法諾-伊萊厄斯編碼塔恩斯塔爾編碼（英語：Tunstall coding）一元編碼（英語：Unary coding）通用編碼（英語：Universal code (data compression)）指數格倫布編碼斐波那契編碼伊萊厄斯伽瑪編碼列文斯捷因編碼（英語：Levenshtein coding）
字典編碼（英語：Dictionary coder）	字節對編碼 LZ77 / LZ78 842（英語：842 (compression algorithm)） Brotli Deflate LZ4 LZFSE LZJB（英語：LZJB） LZMA LZO LZRW（英語：LZRW） LZS（英語：Lempel–Ziv–Stac） LZSS LZW LZWL（英語：LZWL） LZX Snappy Zstandard
其他	BWT CTW（英語：CTW）差分編碼 DMC 差分脈衝編碼調製無損離散餘弦變換 MTF PAQ（英語：PAQ） PPM（英語：Prediction by partial matching） RLE

破壞性資料壓縮

變換編碼	DCT MDCT DST FFT 小波變換多貝西 DWT SPIHT（英語：Set partitioning in hierarchical trees）
預測編碼	DPCM ADPCM（英語：Adaptive differential pulse-code modulation） LPC ACELP（英語：Algebraic code-excited linear prediction） CELP LAR（英語：Log area ratio） LSP WLPC（英語：Warped linear predictive coding）運動運動補償運動預測運動矢量心理聲學

概念	碼率平均碼率恆定碼率可變碼率壓擴（英語：Companding）卷積動態範圍延遲（英語：Latency (audio)）採樣採樣定理音質語音編碼子帶編碼
編解碼組件	A-law（英語：A-law） μ-law（英語：μ-law） DPCM ADPCM（英語：Adaptive differential pulse-code modulation） DM FT FFT LPC ACELP（英語：Algebraic code-excited linear prediction） CELP LAR（英語：Log area ratio） LSP WLPC（英語：Warped linear predictive coding） CELP MDCT 心理聲學模型

概念	色度抽樣編碼樹單元色彩空間壓縮失真圖像分辨率宏塊像素峰值信噪比量化標準測試圖像
方法	DCT Deflate 分形壓縮 K-L變換 LP（英語：Pyramid (image processing)） RLE 小波變換多貝西 DWT SPIHT（英語：Set partitioning in hierarchical trees）

概念	碼率平均碼率恆定碼率可變碼率顯示分辨率幀（英語：Film frame）幀率幀類型隔行掃描視訊特性視訊質量
編解碼組件	DCT DPCM 去區塊濾波器重疊變換（英語：Lapped transform）運動運動補償運動預測運動矢量量化

另見壓縮格式和數據壓縮軟體實作

取自「https://zh.wikipedia.org/w/index.php?title=夏農–菲諾–以利亞碼&oldid=83427563」

分類：