本頁使用了標題或全文手工轉換

浮點數

維基百科,自由的百科全書
前往: 導覽搜尋
十進制浮點數的表示方式

浮點數floating-point number)是屬於有理數中某特定子集的數的數位表示,在電腦中用以近似表示任意某個實數。具體來說,這個實數由一個整數或定點數(即尾數)乘以某個基數(電腦中通常是2)的整數次得到,這種表示方法類似於基數為10的科學記數法

浮點計算是指浮點數參與的運算,這種運算通常伴隨著因為無法精確表示而進行的近似或捨入。

一個浮點數a由兩個數me來表示:a = m × be。在任意一個這樣的系統中,我們選擇一個基數b(記數系統的基)和精度p(即使用多少位來儲存)。m(即尾數)是形如±d.ddd...ddd的p位數(每一位是一個介於0到b-1之間的整數,包括0和b-1)。如果m的第一位是非0整數,m稱作正規化的。有一些描述使用一個單獨的符號位(s 代表+或者-)來表示正負,這樣m必須是正的。e是指數。

這種設計可以在某個固定長度的儲存空間內表示定點數,但無法表示的更大範圍的數。

例如,一個指數範圍為±4的4位元十進制浮點數可以用來表示43210,4.321或0.0004321,但是沒有足夠的精度來表示432.123和43212.3(必須近似為432.1和43210)。當然,實際使用的位數通常遠大於4。

此外,浮點數表示法通常還包括一些特別的數值:+∞和−∞(正負無窮大)以及NaN('Not a Number')。無窮大用於數太大而無法表示的時候,NaN則指示非法操作或者無法定義的結果。

其中,無窮大,可表示為inf,在記憶體中的值是,階碼為全1,尾數全0。而NaN則是階碼全1,尾數不全0。

電腦的浮點數[編輯]

浮點指的是帶有小數的數值,浮點運算即是小數的四則運算,常用來測量電腦運算速度。大部份電腦採用二進制(b=2)的表示方法。(bit)是衡量浮點數所需儲存空間的單位,通常為32位元或64位元,分別被叫作單精度雙精度。有一些電腦提供更大的浮點數,例如英特爾公司的浮點運算單元Intel8087協處理器(以及其被整合進x86處理器中的後代產品)提供80位元長的浮點數,用於儲存浮點運算的中間結果。還有一些系統提供128位元的浮點數(通常用軟體實作)。

浮點數的標準[編輯]

在電腦使用的浮點數被電力電子工程師協會(IEEE)規範化為IEEE 754

舉例[編輯]

π的值可以表示為π = 3.1415926...10(十進制)。當在一個支援17位尾數的電腦中表示時,它會變為0.11001001000011111 × 22

準確性[編輯]

由於浮點數不能表達所有實數,浮點運算與相應的數學運算有所差異,有時此差異極為顯著。

比如,二進制浮點數不能表達0.1和0.01,0.1的平方既不是準確的0.01,也不是最接近0.01的可表達的數。單精度(24位元)浮點數表示0.1的結果為e=-4,s=110011001100110011001101_{(2)},即

0.100000001490116119384765625

此數的平方是

0.010000000298023226097399174250313080847263336181640625

但最接近0.01的可表達的數是

0.009999999776482582092285156250

浮點數也不能表達圓周率\pi,所以\tan\frac{\pi}{2}不等於正無窮,也不會溢位。下面的C語言代碼

double pi = 3.1415926535897932384626433832795;
double z = tan(pi/2.0);

的計算結果為16331239353195370.0,如果用單精度浮點數,則結果為−22877332.0。同樣的,\sin \pi\neq 0

由於浮點數計算過程中遺失了精度,浮點運算的性質與數學運算有所不同。浮點加法和乘法不符合結合律分配律

事故[編輯]

Machine precision and backward error analysis[編輯]

相關條目[編輯]