IEEE 754
IEEE二進位浮點數算術標準(IEEE 754)是1980年代以来最廣泛使用的浮點數運算標準,為許多CPU與浮點運算器所採用。這個標準定義了表示浮點數的格式(包括負零-0)與反常值(denormal number)),一些特殊數值(無窮與非數值(NaN)),以及這些數值的「浮點數運算子」;它也指明了四種數值修約規則和五種例外狀況(包括例外發生的時機與處理方式)。
IEEE 754規定了四種表示浮點數值的方式:單精確度(32位元)、雙精確度(64位元)、延伸單精確度(43位元以上,很少使用)與延伸雙精確度(79位元以上,通常以80位元實做)。只有32位元模式有強制要求,其他都是選擇性的。大部分程式語言都有提供IEEE浮点数格式與算術,但有些將其列為非必需的。例如,IEEE 754問世之前就有的C語言,現在有包括IEEE算術,但不算作強制要求(C語言的float通常是指IEEE單精確度,而double是指雙精確度)。
該標準的全稱為IEEE二進位浮點數算術標準(ANSI/IEEE Std 754-1985),又稱IEC 60559:1989,微處理器系統的二進位浮點數算術(本來的編號是IEC 559:1989)[1]。後來還有「與基數無關的浮點數」的「IEEE 854-1987標準」,有規定基數為2跟10的狀況。现在最新标准是「IEEE 854-2008標準」。
在六、七十年代,各家计算机公司的各个型号的计算机,有着千差万别的浮点数表示,却没有一个业界通用的标准。这给数据交换、计算机协同工作造成了极大不便。IEEE的浮点数专业小组于七十年代末期开始酝酿浮点数的标准。在1980年,英特尔公司就推出了单片的8087浮点数协处理器,其浮点数表示法及定义的运算具有足够的合理性、先进性,被IEEE采用作为浮点数的标准,于1985年发布。而在此前,这一标准的内容已在八十年代初期被各计算机公司广泛采用,成了事实上的业界工业标准。
目录 |
[编辑] 浮點數剖析
以下是該標準對浮點數格式的描述。
[编辑] 本文表示位元的約定
把W个位元(bit)的数据,从内存地址低端到高端,以0到W−1編碼。通常將内存地址低端的位元写在最右邊,称作最低有效位(least significant bit或lsb),代表最小的位元,改變時對整体數值影響最小的位元。聲明這一點的必要性在于X86体系架构是小端序的数据存储。
对于十进制整数N,必要时表示为N10以与二进制的数的表示N2相区分。
对于一个数,其二进制科学计数法表示下的指数的值,下文称之为指数的实际值;而根据IEEE 754标准对指数部分的编码的值,称之为浮点数表示法指數域的编码值。
[编辑] 整體呈現
二進位浮點數是以符號數值表示法的格式儲存——最高有效位被指定為符號位(sign bit);「指數部份」,即次高有效的e个位元,存储指數部分;最后剩下的f个低有效位的位元,存储「尾數部份」(significand)。
[编辑] 指數偏移值
指數偏移值(exponent bias),是指浮点数表示法中的指數域的编码值為指數的实际值加上某個固定的值,IEEE 754标准规定该固定值为 2e-1 - 1[2],其中的e为存储指数的位元的长度。
以单精度浮点数为例,它的指数域是8个位元,固定偏移值是28-1 - 1 = 128−1 = 127. 单精度浮点数的指数部分实际取值是从128到-127。例如指数实际值为1710,在单精度浮点数中的指数域编码值为14410, 即14410 = 1710 + 12710.
采用指数的实际值加上固定的偏移值的办法表示浮点数的指数,好处是可以用长度为e个位元的无符号整数来表示所有的指数取值,这使得两个浮点数的指数大小的比较更为容易。
[编辑] 规约形式的浮点数
如果浮点数中指数部分的编码值在0 < exponent < 2e − 1之間,且尾數部分最高有效位是1,那么這個浮点數將被稱為规约形式的浮点数。
[编辑] 非规约形式的浮点数
如果浮点数的指數部分的编码值是0,尾数部分的最高有效位也是0,那么这个浮点数將被稱為非规约形式的浮点数。IEEE 754标准规定:非规约形式的浮点数的指数偏移值比规约形式的浮点数的指数偏移值大1. 例如,最小的规约形式的单精度浮点数的指数部分编码值为1,指数的实际值为-126;而非规约的单精度浮点数的指数域编码值为0,对应的指数实际值也是-126而不是-127。实际上非规约形式的浮点数仍然是有效可以使用的,只是它们的绝对值已经小于所有的规约浮点数的绝对值;即所有的非规约浮点数比规约浮点数更接近0。规约浮点数的尾数大于等于1且小于2,而非规约浮点数的尾数小于1且大于0.
IEEE 754-1985标准采用非规约浮点数,源于70年代末IEEE浮点数标准化专业技术委员会酝酿浮点数二进制标准时,Intel公司对渐进式下溢出(gradual underflow)的力荐。当时十分流行的DEC VAX机的浮点数表示采用了突然式下溢出(abrupt underflow). 如果没有渐进式下溢出,那么0与绝对值最小的浮点数之间的距离(gap)将大于相邻的小浮点数之间的距离。例如单精度浮点数的绝对值最小的规约浮点数是
, 它与绝对值次小的规约浮点数之间的距离为
。如果不采用渐进式下溢出,那么绝对值最小的规约浮点数与0的距离是相邻的小浮点数之间距离的223倍!可以说是非常突然的下溢出到0。这种情况的一种糟糕后果是:两个不等的小浮点数X与Y相减,结果将是0. 训练有素的数值分析人员可能会适应这种限制情况,但对于普通的程序员就很容易陷入错误了。采用了渐进式下溢出后将不会出现这种情况。例如对于单精度浮点数,指数部分实际最小值是(-126),对应的尾数部分从
,
一直到
,
,相邻两小浮点数之间的距离(gap)都是
;而与0最近的浮点数(即最小的非规约数)也是
。
[编辑] 特殊值
這里有三個特殊值需要指出:
- 如果 指數 是0 并且 小數部分 是0,這個數±0(和符號位相關)
- 如果 指數 = 2e − 1 并且 小數部分 是0,這個數是 ±無窮大(同樣和符號位相關)
- 如果 指數 = 2e − 1 并且 小數部分 非0,這個數表示為不是一個數(NaN)。
以上規則,總結如下:
| 形式 | 指數 | 小數部分 |
|---|---|---|
| 零 | 0 | 0 |
| 非正規形式 | 0 | 非0 |
| 正規形式 | 1 到 2e − 2 | 任意 |
| 無窮 | 2e − 1 | 0 |
| NaN | 2e − 1 | 非零 |
[编辑] 32位單精度
單精度二進制小數,使用32個位元存儲。
| 1 | 8 | 23 位長 |
| S | Exp | Fraction |
| 31 | 30至23 偏正值 (實際的指數大小+127) |
22至0 位編號(從右邊開始為0) |
S為符號位,Exp為指數位,Fraction為有效數位。 指數部分即使用所謂的偏正值形式表示,偏正值為實際的指數大小與一個固定值(32位的情況是127)的和。采用這種方式表示的目的是簡化比較。因為,指數的值可能為正也可能為負,如果采用補碼表示的話,全體符號位S和Exp自身的符號位將導致不能簡單的進行大小比較。正因為如此,指數部分通常采用一個無符號的正數值存儲。單精度的指數部分是−126~+127加上偏移值127 ,指數值的大小從1~254(0和255是特殊值)。浮點小數計算時,指數值減去偏正值將是實際的指數大小。
单精度浮点数各种极值情况:
| 类别 | 正负号 | 实际指数 | 有偏移指数 | 指数域 | 尾数域 | 数值 |
|---|---|---|---|---|---|---|
| 零 | 0 | -127 | 0 | 0000 0000 | 000 0000 0000 0000 0000 0000 | 0.0 |
| 负零 | 1 | -127 | 0 | 0000 0000 | 000 0000 0000 0000 0000 0000 | −0.0 |
| 1 | 0 | 0 | 127 | 0111 1111 | 000 0000 0000 0000 0000 0000 | 1.0 |
| -1 | 1 | 0 | 127 | 0111 1111 | 000 0000 0000 0000 0000 0000 | −1.0 |
| 最小的非规约数 | * | -127 | 0 | 0000 0000 | 000 0000 0000 0000 0000 0001 | ±2−23 × 2−126 = ±2−149 ≈ ±1.4×10-45 |
| 中间大小的非规约数 | * | -127 | 0 | 0000 0000 | 100 0000 0000 0000 0000 0000 | ±2−1 × 2−126 = ±2−127 ≈ ±5.88×10-39 |
| 最大的非规约数 | * | -127 | 0 | 0000 0000 | 111 1111 1111 1111 1111 1111 | ±(1−2−23) × 2−126 ≈ ±1.18×10-38 |
| 最小的规约数 | * | -126 | 1 | 0000 0001 | 000 0000 0000 0000 0000 0000 | ±2−126 ≈ ±1.18×10-38 |
| 最大的规约数 | * | 127 | 254 | 1111 1110 | 111 1111 1111 1111 1111 1111 | ±(2−2−23) × 2127 ≈ ±3.4×1038 |
| 正无穷 | 0 | 128 | 255 | 1111 1111 | 000 0000 0000 0000 0000 0000 | +∞ |
| 负无穷 | 1 | 128 | 255 | 1111 1111 | 000 0000 0000 0000 0000 0000 | −∞ |
| NaN | * | 128 | 255 | 1111 1111 | non zero | NaN |
| * 符号位可以为0或1 . | ||||||
[编辑] 64位雙精度
雙精度二進制小數,使用64個位元存儲。
| 1 | 11 | 52 位長 |
| S | Exp | Fraction |
| 63 | 62至52 偏正值 (實際的指數大小+1023) |
51至0 位編號(從右邊開始為0) |
S 為符號位,Exp為指數位,Fraction為有效數位。 指數部分即使用所謂的偏正值形式表示,偏正值為實際的指數大小與一個固定值(64位的情況是1023)的和。采用這種方式表示的目的是簡化比較。因為,指數的值可能為正也可能為負,如果采用補碼表示的話,全體符號位S和Exp自身 的符號位將導致不能簡單的進行大小比較。正因為如此,指數部分通常采用一個無符號的正數值存儲。雙精度的指數部分是−1022~+1023加上1023 ,指數值的大小從1~2046(0(2進位全為0)和2047(2進位全為1)是特殊值)。浮點小數計算時,指數值減去偏正值將是實際的指數大小。
[编辑] 浮點數的比較
浮点数基本上可以按照符号位、指数域、尾数域的顺序作字典比较。显然,所有正数大于负数;正负号相同时,指数的二进制表示法更大的其浮点数值更大。
[编辑] 浮點數的捨入
任何有效數上的運算結果,通常都存放在較長的暫存器中,當結果被放回浮點格式時,必須將多出來的位元丟棄。 有多種方法可以用來執行捨入作業,實際上IEEE標準列出4種不同的方法:
- 捨入到最接近:會將結果捨入為最接近且可以表示的值。这是缺省的近似方法。
- 朝+∞方向捨入:會將結果朝正無限大的方向捨入。
- 朝-∞方向捨入: 會將結果朝負無限大的方向捨入。
- 朝0方向捨入: 會將結果朝0的方向捨入。
[编辑] 浮点数的运算与函数
[编辑] 标准运算
下述函数必须提供:
- 加减乘除 Add, subtract, multiply, divide
- 平方根 Square root
- 浮点余数. 返回值 x-(round(x/y)*y).
- 近似到最近的整数. 如果恰好在两个相邻整数之间,则近似到偶数.
- 比较运算. IEEE754定义了特殊情况: -inf = -inf, inf = inf and x ≠ NaN for any x (including NaN).
[编辑] 建议的函数与谓词
- Under some C compilers,
copysign(x,y)returns x with the sign of y, soabs(x)equalscopysign(x,1.0). This is one of the few operations which operates on a NaN in a way resembling arithmetic. The functioncopysignis new in the C99 standard. - −x returns x with the sign reversed. This is different from 0−x in some cases, notably when x is 0. So −(0) is −0, but the sign of 0−0 depends on the rounding mode.
scalb(y, N)logb(x)finite(x)a predicate for "x is a finite value", equivalent to −Inf < x < Infisnan(x)a predicate for "x is a nan", equivalent to "x ≠ x"x <> ywhich turns out to have different exception behavior than NOT(x = y).unordered(x, y)is true when "x is unordered with y", i.e., either x or y is a NaN.class(x)nextafter(x,y)returns the next representable value from x in the direction towards y
[编辑] 外部連結
- IEEE 754 references
- Let's Get To The (Floating) Point by Chris Hecker
- What Every Computer Scientist Should Know About Floating-Point Arithmetic by David Goldberg - a good introduction and explanation.
- IEEE 854-1987 History and minutes
- Converter
- Another Converter
- Converter as MS-Windows program
- Comparing doubles in C++
- An Interview with the Old Man of Floating-Point
- Coprocessor.info : x87 FPU pictures, development and manufacturer information