1 前言 我們在學習 C 語言時,通常認為浮點數和小數是等價的,並沒有嚴格區分它們的概念,這也並沒有影響到我們的學習,原因就是浮點數和小數是綁定在一起的,只有小數才使用浮點格式來存儲。 其實,整數和小數可以都使用定點格式來存儲,也可以都使用浮點格式來存儲,但實際情況卻是,C 語言使用定點格式存儲整數,使用浮點格式存儲小數,這是在 “數值范圍” 和 “數值精度” 兩項重要指標之間追求平衡的結果。 2 什么是浮點數?浮點型簡單講就是實數的意思。浮點數在計算機中用以近似表示任意某個實數。具體的說,這個實數由一個整數或定點數(即尾數)乘以某個基數(計算機中通常是 2)的整數次冪得到,這種表示方法類似於基數為 10 的科學記數法。 3 浮點數在內存中的存儲首先明確一點,無論是整型、浮點型還是字符等等數據類型在計算機底層都是以二進制的方式存儲的。 浮點數在內存中的存儲和整數不同,因為整數都可以轉換為一一對應的二進制數據。而浮點數的存儲是由符號位 (sign) + 指數位 (exponent) + 小數位 (fraction) 組成。 [td]
int 和 float 同樣占據四個字節的內存,但是 float 所能表示的最大值比 int 大得多,其根本原因是浮點數在內存中是以指數的方式存儲。 浮點數轉換到內存中存儲的步驟分為如下三步:
對於第3點:計算指數時需要加上偏移量(后面有介紹為什么使用偏移量),而偏移量的值與浮點數的類型有關( float 偏移量值為 127 ,double 偏移量值為 1023)。比方對於指數 6,float 與 double 類型偏移后的值分別為:
浮點數19.625用float是如何存儲的:
float和double的范圍是由指數的位數來決定的。(因為表示的時候都是1.x * 2^Y的形式,所以忽略了1.x的效果,直接取指數表示浮點數的范圍)
1bit(符號位) 8bits(指數位) 23bits(尾數位)
1bit(符號位) 11bits(指數位) 52bits(尾數位) 於是,float的指數范圍為-127~+128,而double的指數范圍為-1023~+1024,並且指數位是按補碼的形式來划分的。 其中負指數決定了浮點數所能表達的絕對值最小的非零數;而正指數決定了浮點數所能表達的絕對值最大的數,也即決定了浮點數的取值范圍。 float的范圍為-2^128 ~ +2^128,也即-3.40E+38 ~ +3.40E+38; double的范圍為-2^1024 ~ +2^1024,也即-1.79E+308 ~ +1.79E+308。 精度float和double的精度是由尾數的位數來決定的,尾數越多能表示的小數點后面有效數字就越多,因此精度就越高。浮點數在內存中是按科學計數法來存儲的,其整數部分始終是一個隱含着的“1”,由於它是不變的,故不能對精度造成影響。 float:2^23 = 8388608,一共七位,這意味着最多能有 7 位有效數字,但絕對能保證的為 6 位,也即float的精度為 6~7 位有效數字; double:2^52 = 4503599627370496,一共 16 位,同理,double的精度為 15~16 位。 6 解剖:為什么要用偏移量的方式來計算指數?如果不采用偏移量的方式:8 位 2 進制數表示的有符號數范圍有兩個區間:0000 0000~0111 1111和1000 0000~1111 1111,分別為0~+127和-127~0。 大家看到這里的問題了吧,有兩個 0 ,一個正 0 和一個負 0。 如果采用偏移量的方式:127 轉化為二進制是:0111 1111 那么
當我們要表示128,則有128+127即1000 0000 + 0111 1111 = 1111 1111 由上面的例子,我們可以得出規律,采用移位存儲技術,我們可以使用 8 位二進制來表示從-127~+128共計 127 個負數+零(0)+ 128 個正數總共 256 個數,看來使用移位存儲既沒有 +0 和 -0 的問題,又能充分使用新生成的8位二進制數最大限度的表示單精度浮點數的冪指數,是非常合理的。
轉自:http://www.stmcu.org.cn/module/forum/thread-626866-1-1.html |
https://timroderick.com/floating-point-introduction/這個文章也不錯~~~