浮點數運算

在電腦科學中，浮點數運算（Floating-point arithmetic）是一種用浮點（英語：floating point，縮寫為FP）方式表示實數的運算方式。浮點是一種對於實數的近似值數值表現法，由一個有效數字（即尾數）加上冪數來表示，通常是乘以某個基數的整數次指數得到。以這種表示法表示的數值，稱為浮點數（floating-point number）。浮點數運算運算通常伴隨著因為無法精確表示而進行的近似或捨入。

計算機使用浮點數運算的主因，在於電腦使用二進位制的運算。例如：4÷2=2，4=100₍₂₎、2=010₍₂₎，在二進位相當於退一位數。則1.0÷2=0.5=0.1₍₂₎也就是 ${\frac {1}{2}}$ 。依此類推二進位的0.01₍₂₎就是十進位 ${\frac {1}{2^{2}}}$ = ${\frac {1}{4}}$ =0.25。由於十進位制無法準確換算成二進位制的部分小數，如0.1，因此只能使用近似值的方式表達。

這種表示方法類似於基數為10的科學記數法，在計算機上，通常使用2為基數的冪數來表示。一個浮點數a由兩個數m和e來表示：a = m × b^e。在任意一個這樣的系統中，可選擇一個基數b（記數系統的基）和精度p（即使用多少位來儲存）。m（即尾數（英語：Significand））是形如±d.ddd...ddd的p位數（每一位是一個介於0到b-1之間的整數，包括0和b-1）。如果m的第一位是非0整數，m稱作正規化的。有一些描述使用一個單獨的符號位（s 代表+或者-）來表示正負，這樣m必須是正的。e是指數。

這種表示法的設計，來自於對於值的表現範圍，與精密度之間的取捨：可以在某個固定長度的儲存空間內表示出某個實數的近似值。例如，一個指數範圍為±4的4位元十進位浮點數可以用來表示43210，4.321或0.0004321，但是沒有足夠的精度來表示432.123和43212.3（必須近似為432.1和43210）。當然，實際使用的位數通常遠大於4。

此外，浮點數表示法通常還包括一些特別的數值：+∞和−∞（正負無窮大）以及NaN（'Not a Number'）。無窮大用於數太大而無法表示的時候，NaN則指示非法操作或者無法定義的結果。

其中，無窮大，可表示為inf，在記憶體中的值是階碼為全1，尾數全0。而NaN在記憶體中的值則是階碼全1，尾數不全0。

電腦的浮點數[編輯]

浮點指的是帶有小數的數值，浮點運算即是小數的四則運算，常用來測量電腦運算速度。大部份電腦採用二進制（b=2）的表示方法。位（bit）是衡量浮點數所需儲存空間的單位，通常為32位元或64位元，分別被叫作單精度和雙精度。有一些電腦提供更大的浮點數，例如英特爾公司的浮點運算單元Intel8087協處理器（以及其被整合進x86處理器中的後代產品）提供80位元長的浮點數，用於儲存浮點運算的中間結果。還有一些系統提供128位元的浮點數（通常用軟體實現）。

浮點數的標準[編輯]

在電腦使用的浮點數被電氣電子工程師協會（IEEE）規格化為IEEE 754。

舉例[編輯]

π的值可以表示為π = 3.1415926...₁₀（十進位）。當在一個支援17位尾數的電腦中表示時，它會變為0.11001001000011111 × 2²。

浮點數運算[編輯]

為了方便呈現，容易閱讀，以下的例子會用十進制，有效位數7位數的浮點數，也就是IEEE 754 decimal32格式，其原理不會隨進制或是有效位數而變。此處的s表示尾數（有效數字），而e表示指數。

加減法[編輯]

處理浮點數加法的簡單作法是將二個浮點數調整到有相同的指數。在以下例子中，第二個數的小數點左移了三位，使二者的指數相同，之後即可進行一般的加法運算：

  123456.7 = 1.234567 × 10^5
  101.7654 = 1.017654 × 10^2 = 0.001017654 × 10^5

  因此
  123456.7 + 101.7654 = (1.234567 × 10^5) + (1.017654 × 10^2)
                      = (1.234567 × 10^5) + (0.001017654 × 10^5)
                      = (1.234567 + 0.001017654) × 10^5
                      =  1.235584654 × 10^5

若用e和s來表示

  e=5;  s=1.234567     (123456.7)
+ e=2;  s=1.017654     (101.7654)

  e=5;  s=1.234567
+ e=5;  s=0.001017654  (移位後)
--------------------
  e=5;  s=1.235584654  (實際的和：123558.4654)

這是真實的結果，二個數字真正的和，之後會再四捨五入到七位有效位數，若有需要的話，會再進行正規化，其結果為

  e=5;  s=1.235585    (最後答案：123558.5)

加數的最低三位數（654）沒有出現在結果中，這稱為捨入誤差。在一些極端的例子中，二個浮點數的和可能和其中的被加數或是加數相等：

  e=5;  s=1.234567
+ e=−3; s=9.876543

  e=5;  s=1.234567
+ e=5;  s=0.00000009876543 (移位後)
----------------------
  e=5;  s=1.23456709876543 (真正的和)
  e=5;  s=1.234567         (四捨五入及正規化後)

在上述的例子中，為了要有正確的四捨五入結果，在二數指數差距很大時，要增加許多位數才有正確的結果。不過，在二位制的加減法中，利用一個guard位元、一個rounding位元以及一個額外的sticky位元，就可以有正確的結果^[1]^[2]^:218–220。

另一個失去有效數字的情形出現在二個幾乎相等的數字相減時。在以下的例子中，e = 5; s = 1.234571和e = 5; s = 1.234567是有理數123457.1467和123456.659的近似值。

  e=5;  s=1.234571
− e=5;  s=1.234567
----------------
  e=5;  s=0.000004
  e=−1; s=4.000000 (四捨五入及正規化後)

浮點數的差可以精確的計算，如同Sterbenz引理（英語：Sterbenz lemma）所說明的，就算是因為漸進式下溢位（英語：gradual underflow）而出現下溢位也是一樣。不過，原來二個數的差是e = −1; s = 4.877000，和浮點數計算結果e = −1; s = 4.000000之間差了超過20%。在極端的例子中，甚至所有的有效數字都會不見^[1]^[3]。上述的災難性抵消說明了，假設計算結果的每一位數都有意義，這個想法很危險。這類誤差的處理及修正是數值分析中的主題之一。

乘除法[編輯]

若要進行乘法，將有效數字相乘，指數相加，再進行四捨五入及正規化即可。

  e=3;  s=4.734612
× e=5;  s=5.417242
-----------------------
  e=8;  s=25.648538980104 (真實乘積)
  e=8;  s=25.64854        (四捨五入後)
  e=9;  s=2.564854        (正規化)

而除法會將被除數和除數的有效數字相除，二者的指數相減，再進行四捨五入及正規化。

乘除法不會有抵消或是某一數字被吸收的問題，不過仍會出現一些小誤差，若連續運算，誤差會變大^[1]。實務上，要進行上述運算的數位邏輯可能會相當的複雜（像是布斯乘法演算法以及除法器）。

準確性[編輯]

由於浮點數不能表達所有實數，浮點運算與相應的數學運算有所差異，有時此差異極為顯著。

比如，二進位浮點數不能表達0.1和0.01，0.1的平方既不是準確的0.01，也不是最接近0.01的可表達的數。單精度（24位元）浮點數表示0.1的結果為 $e=-4$ , $s=110011001100110011001101_{(2)}$ ，即

0.100000001490116119384765625

此數的平方是

0.010000000298023226097399174250313080847263336181640625

但最接近0.01的可表達的數是

0.009999999776482582092285156250

浮點數也不能表達圓周率 $\pi$ ，所以 $\tan {\frac {\pi }{2}}$ 不等於正無窮，也不會溢位。下面的C語言代碼

double pi = 3.1415926535897932384626433832795;
double z = tan(pi/2.0);

的計算結果為16331239353195370.0，如果用單精度浮點數，則結果為−22877332.0。同樣的， $\sin \pi \neq 0$ 。

由於浮點數計算過程中遺失了精度，浮點運算的性質與數學運算有所不同。浮點加法和乘法不符合結合律和分配律。

事故[編輯]

奔騰早期的60-100MHz P5版本在浮點運算單元有一個問題，在極少數情況下，會導致除法運算的精確度降低。這個缺陷於1994年被發現，變成如今廣為人知的奔騰浮點除錯誤，同時這一事件導致英特爾陷入巨大的窘態，建立召回計畫來回收有問題的處理器。

參考資料[編輯]

^ ^1.0 ^1.1 ^1.2 Goldberg, David. What Every Computer Scientist Should Know About Floating-Point Arithmetic (PDF). ACM Computing Surveys. March 1991, 23 (1): 5–48 [2016-01-20]. S2CID 222008826. doi:10.1145/103162.103163. （原始內容存檔 (PDF)於2006-07-20）. ([1] （頁面存檔備份，存於網際網路檔案館）, [2] （頁面存檔備份，存於網際網路檔案館）, [3] （頁面存檔備份，存於網際網路檔案館）)
^ Patterson, David A.; Hennessy, John L. Computer Organization and Design, The Hardware/Software Interface. The Morgan Kaufmann series in computer architecture and design 5th. Waltham, Massachusetts, USA: Elsevier. 2014: 793. ISBN 978-9-86605267-5 （英語）.
^ 美國專利3037701A (PDF 版本)（於1962年6月5日註冊）Huberto M Sierra——Floating decimal point arithmetic control means for calculator。

[Goldberg_1991-1] 1.0 ^1.1 ^1.2 Goldberg, David. What Every Computer Scientist Should Know About Floating-Point Arithmetic (PDF). ACM Computing Surveys. March 1991, 23 (1): 5–48 [2016-01-20]. S2CID 222008826. doi:10.1145/103162.103163. （原始內容存檔 (PDF)於2006-07-20）. ([1] （頁面存檔備份，存於網際網路檔案館）, [2] （頁面存檔備份，存於網際網路檔案館）, [3] （頁面存檔備份，存於網際網路檔案館）)

[Patterson-Hennessy_2014-2] Patterson, David A.; Hennessy, John L. Computer Organization and Design, The Hardware/Software Interface. The Morgan Kaufmann series in computer architecture and design 5th. Waltham, Massachusetts, USA: Elsevier. 2014: 793. ISBN 978-9-86605267-5 （英語）.

[Sierra_1962-3] 美國專利3037701A (PDF 版本)（於1962年6月5日註冊）Huberto M Sierra——Floating decimal point arithmetic control means for calculator。

[1]

[2]

[3]