C 語言中浮點數的秘密（絕對通俗易懂）

本文轉載自查看原文 2020-09-12 10:49 868 C/C++

1 前言

我們在學習 C 語言時，通常認為浮點數和小數是等價的，並沒有嚴格區分它們的概念，這也並沒有影響到我們的學習，原因就是浮點數和小數是綁定在一起的，只有小數才使用浮點格式來存儲。

其實，整數和小數可以都使用定點格式來存儲，也可以都使用浮點格式來存儲，但實際情況卻是，C 語言使用定點格式存儲整數，使用浮點格式存儲小數，這是在 “數值范圍” 和 “數值精度” 兩項重要指標之間追求平衡的結果。

2 什么是浮點數？

浮點型簡單講就是實數的意思。浮點數在計算機中用以近似表示任意某個實數。具體的說，這個實數由一個整數或定點數（即尾數）乘以某個基數（計算機中通常是 2）的整數次冪得到，這種表示方法類似於基數為 10 的科學記數法。

3 浮點數在內存中的存儲

首先明確一點，無論是整型、浮點型還是字符等等數據類型在計算機底層都是以二進制的方式存儲的。

浮點數在內存中的存儲和整數不同，因為整數都可以轉換為一一對應的二進制數據。而浮點數的存儲是由符號位 (sign) + 指數位 (exponent) + 小數位 (fraction) 組成。

[td]

類型	符號位	指數	尾數
Float	1位（第31位）	8位（第23~30位）	23位（第0~22位）
Double	1位（第63位）	11位（第52~62位）	52位（第0~51位）

int 和 float 同樣占據四個字節的內存，但是 float 所能表示的最大值比 int 大得多，其根本原因是浮點數在內存中是以指數的方式存儲。

浮點數轉換到內存中存儲的步驟分為如下三步：

將浮點數轉換成二進制
用科學計數法表示二進制浮點數
計算指數偏移后的值

對於第3點：計算指數時需要加上偏移量（后面有介紹為什么使用偏移量），而偏移量的值與浮點數的類型有關( float 偏移量值為 127 ，double 偏移量值為 1023)。比方對於指數 6，float 與 double 類型偏移后的值分別為：

float : 127 + 6 = 133
double：1023 + 6 = 1029

4 實例

浮點數19.625用float是如何存儲的：

將浮點數轉換成二進制：10011.101（將 19.625 整數部分采用除 2 取余，小數部分采用乘 2 取整法）；
用科學計數法表示二進制浮點數：1.0011101*2^4；
計算指數偏移后的值：127 + 4 = 131 （10000011）；
拼接綜上所述，float 類型的 19.625 在內存中的值為：0 - 10000011 - 001 1101 0000 0000 0000 0000。

5 float與double范圍和精度范圍

float和double的范圍是由指數的位數來決定的。（因為表示的時候都是1.x * 2^Y的形式，所以忽略了1.x的效果，直接取指數表示浮點數的范圍）

float：

1bit（符號位） 8bits（指數位） 23bits（尾數位）

double：

1bit（符號位） 11bits（指數位） 52bits（尾數位）

於是，float的指數范圍為-127~+128，而double的指數范圍為-1023~+1024，並且指數位是按補碼的形式來划分的。

其中負指數決定了浮點數所能表達的絕對值最小的非零數；而正指數決定了浮點數所能表達的絕對值最大的數，也即決定了浮點數的取值范圍。

float的范圍為-2^128 ~ +2^128，也即-3.40E+38 ~ +3.40E+38；

double的范圍為-2^1024 ~ +2^1024，也即-1.79E+308 ~ +1.79E+308。

精度

float和double的精度是由尾數的位數來決定的，尾數越多能表示的小數點后面有效數字就越多，因此精度就越高。浮點數在內存中是按科學計數法來存儲的，其整數部分始終是一個隱含着的“1”，由於它是不變的，故不能對精度造成影響。

float：2^23 = 8388608，一共七位，這意味着最多能有 7 位有效數字，但絕對能保證的為 6 位，也即float的精度為 6~7 位有效數字；

double：2^52 = 4503599627370496，一共 16 位，同理，double的精度為 15~16 位。

6 解剖：為什么要用偏移量的方式來計算指數？如果不采用偏移量的方式：

8 位 2 進制數表示的有符號數范圍有兩個區間：0000 0000~0111 1111和1000 0000~1111 1111，分別為0~+127和-127~0。

大家看到這里的問題了吧，有兩個 0 ，一個正 0 和一個負 0。

如果采用偏移量的方式：

127 轉化為二進制是：0111 1111

那么

當我們要表示 -127，則有127-127即0111 1111 - 0111 1111 = 0000 0000
當我們要表示 -126，則有127-126即0111 1111 - 0111 1110 = 0000 0001
當我們要表示 -2，則有127-2即0111 1111 - 0000 0010 = 0111 1101
當我們要表示 -1，則有127-1即0111 1111 - 0000 0001 = 0111 1110
當我們要表示 0，則有0+127即0000 0000 + 0111 1111 = 0111 1111
當我們要表示 1，則有1+127即0000 0001 + 0111 1111 = 1000 0000
當我們要表示 2，則有1+127即0000 0010 + 0111 1111 = 1000 0001

當我們要表示128，則有128+127即1000 0000 + 0111 1111 = 1111 1111

由上面的例子，我們可以得出規律，采用移位存儲技術，我們可以使用 8 位二進制來表示從-127~+128共計 127 個負數+零（0）+ 128 個正數總共 256 個數，看來使用移位存儲既沒有 +0 和 -0 的問題，又能充分使用新生成的8位二進制數最大限度的表示單精度浮點數的冪指數，是非常合理的。

轉自：http://www.stmcu.org.cn/module/forum/thread-626866-1-1.html

https://timroderick.com/floating-point-introduction/這個文章也不錯～～～

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 c語言中打印浮點數 C語言浮點數存儲方式關於一個通俗易懂的FFT的C語言實現教程記C語言浮點數運算處理 "坑" 一則 C語言測一個浮點數的位數長度第一篇博文，寫個簡單的但是有點意思的——C語言中浮點數以整型輸出會得到什么？通俗易懂DenseNet C++的浮點數比較 C標准庫——浮點數 C++ 浮點數的存儲與精度