浮點數在計算機內存中的表示（IEEE 754規定1位是符號位，8位是指數，剩下的23位為有效數字）

本文轉載自查看原文 2016-05-02 16:13 5041 Delphi-DataType

本文轉載自：阮一峰的博客，http://www.ruanyifeng.com/blog/2010/06/ieee_floating-point_representation.html

張玉彬的博客 http://www.cnblogs.com/jillzhang/archive/2007/06/24/793901.html

1.
前幾天，我在讀一本C語言教材，有一道例題：

　　#include <stdio.h>

　　void main(void){

　　　　int num=9; /* num是整型變量，設為9 */

　　　　float* pFloat=&num; /* pFloat表示num的內存地址，但是設為浮點數 */

　　　　printf("num的值為：%d\n",num); /* 顯示num的整型值 */

　　　　printf("*pFloat的值為：%f\n",*pFloat); /* 顯示num的浮點值 */

　　　　*pFloat=9.0; /* 將num的值改為浮點數 */

　　　　printf("num的值為：%d\n",num); /* 顯示num的整型值 */

　　　　printf("*pFloat的值為：%f\n",*pFloat); /* 顯示num的浮點值 */

　　}

運行結果如下：

　　num的值為：9
　　*pFloat的值為：0.000000
　　num的值為：1091567616
　　*pFloat的值為：9.000000

我很驚訝，num和*pFloat在內存中明明是同一個數，為什么浮點數和整數的解讀結果會差別這么大？

要理解這個結果，一定要搞懂浮點數在計算機內部的表示方法。我讀了一些資料，下面就是我的筆記。

2.
在討論浮點數之前，先看一下整數在計算機內部是怎樣表示的。

　　int num=9;

上面這條命令，聲明了一個整數變量，類型為int，值為9（二進制寫法為1001）。普通的32位計算機，用4個字節表示int變量，所以9就被保存為00000000 00000000 00000000 00001001，寫成16進制就是0x00000009。

那么，我們的問題就簡化成：為什么0x00000009還原成浮點數，就成了0.000000？

3.
根據國際標准IEEE 754，任意一個二進制浮點數V可以表示成下面的形式：

　　

　　（1）(-1)^s表示符號位，當s=0，V為正數；當s=1，V為負數。

　　（2）M表示有效數字，大於等於1，小於2。

　　（3）2^E表示指數位。

舉例來說，十進制的5.0，寫成二進制是101.0，相當於1.01×2^2。那么，按照上面V的格式，可以得出s=0，M=1.01，E=2。

十進制的-5.0，寫成二進制是-101.0，相當於-1.01×2^2。那么，s=1，M=1.01，E=2。

IEEE 754規定，對於32位的浮點數，最高的1位是符號位s，接着的8位是指數E，剩下的23位為有效數字M。

對於64位的浮點數，最高的1位是符號位S，接着的11位是指數E，剩下的52位為有效數字M。

5.
IEEE 754對有效數字M和指數E，還有一些特別規定。

前面說過，1≤M<2，也就是說，M可以寫成1.xxxxxx的形式，其中xxxxxx表示小數部分。IEEE 754規定，在計算機內部保存M時，默認這個數的第一位總是1，因此可以被舍去，只保存后面的xxxxxx部分。比如保存1.01的時候，只保存01，等到讀取的時候，再把第一位的1加上去。這樣做的目的，是節省1位有效數字。以32位浮點數為例，留給M只有23位，將第一位的1舍去以后，等於可以保存24位有效數字。

至於指數E，情況就比較復雜。

首先，E為一個無符號整數（unsigned int）。這意味着，如果E為8位，它的取值范圍為0~255；如果E為11位，它的取值范圍為0~2047。但是，我們知道，科學計數法中的E是可以出現負數的，所以IEEE 754規定，E的真實值必須再減去一個中間數，對於8位的E，這個中間數是127；對於11位的E，這個中間數是1023。

比如，2^10的E是10，所以保存成32位浮點數時，必須保存成10+127=137，即10001001。

然后，指數E還可以再分成三種情況：

（1）E不全為0或不全為1。這時，浮點數就采用上面的規則表示，即指數E的計算值減去127（或1023），得到真實值，再將有效數字M前加上第一位的1。

（2）E全為0。這時，浮點數的指數E等於1-127（或者1-1023），有效數字M不再加上第一位的1，而是還原為0.xxxxxx的小數。這樣做是為了表示±0，以及接近於0的很小的數字。

（3）E全為1。這時，如果有效數字M全為0，表示±無窮大（正負取決於符號位s）；如果有效數字M不全為0，表示這個數不是一個數（NaN）。

好了，關於浮點數的表示規則，就說到這里。

下面，讓我們回到一開始的問題：為什么0x00000009還原成浮點數，就成了0.000000？

首先，將0x00000009拆分，得到第一位符號位s=0，后面8位的指數E=00000000，最后23位的有效數字M=000 0000 0000 0000 0000 1001。

由於指數E全為0，所以符合上一節的第二種情況。因此，浮點數V就寫成：

　　V=(-1)^0×0.00000000000000000001001×2^(-126)=1.001×2^(-146)

顯然，V是一個很小的接近於0的正數，所以用十進制小數表示就是0.000000。

7.
再看例題的第二部分。

請問浮點數9.0，如何用二進制表示？還原成十進制又是多少？

首先，浮點數9.0等於二進制的1001.0，即1.001×2^3。

那么，第一位的符號位s=0，有效數字M等於001后面再加20個0，湊滿23位，指數E等於3+127=130，即10000010。

所以，寫成二進制形式，應該是s+E+M，即0 10000010 001 0000 0000 0000 0000 0000。這個32位的二進制數，還原成十進制，正是1091567616。

無論是單精度還是雙精度在存儲中都分為三個部分：

符號位(Sign) : 0代表正，1代表為負
指數位（Exponent）:用於存儲科學計數法中的指數數據，並且采用移位存儲
尾數部分（Mantissa）：尾數部分

其中float的存儲方式如下圖所示：

float類型的存儲方式

而雙精度的存儲方式為:

double類型數據的存儲方式

R32.24和R64.53的存儲方式都是用科學計數法來存儲數據的，比如8.25用十進制的科學計數法表示就為:8.25*,而120.5可以表示為:1.205*,這些小學的知識就不用多說了吧。而我們傻蛋計算機根本不認識十進制的數據，他只認識0，1，所以在計算機存儲中，首先要將上面的數更改為二進制的科學計數法表示，8.25用二進制表示可表示為1000.01,我靠，不會連這都不會轉換吧?那我估計要沒轍了。120.5用二進制表示為：1110110.1用二進制的科學計數法表示1000.01可以表示為1.0001*,1110110.1可以表示為1.1101101*,任何一個數都的科學計數法表示都為1.xxx*,尾數部分就可以表示為xxxx,第一位都是1嘛，干嘛還要表示呀？可以將小數點前面的1省略，所以23bit的尾數部分，可以表示的精度卻變成了24bit，道理就是在這里，那24bit能精確到小數點后幾位呢，我們知道9的二進制表示為1001，所以4bit能精確十進制中的1位小數點，24bit就能使float能精確到小數點后6位，而對於指數部分，因為指數可正可負，8位的指數位能表示的指數范圍就應該為:-127-128了，所以指數部分的存儲采用移位存儲，存儲的數據為元數據+127，下面就看看8.25和120.5在內存中真正的存儲方式。

首先看下8.25，用二進制的科學計數法表示為:1.0001*

按照上面的存儲方式，符號位為:0，表示為正，指數位為:3+127=130 ,位數部分為,故8.25的存儲方式如下圖所示:

單精度浮點數8.25的存儲方式

而單精度浮點數120.5的存儲方式如下圖所示:

單精度數120.5的存儲方式

那么如果給出內存中一段數據，並且告訴你是單精度存儲的話，你如何知道該數據的十進制數值呢？其實就是對上面的反推過程，比如給出如下內存數據：0100001011101101000000000000，首先我們現將該數據分段，0 10000 0101 110 1101 0000 0000 0000 0000，在內存中的存儲就為下圖所示：

根據我們的計算方式，可以計算出，這樣一組數據表示為:1.1101101*=120.5

而雙精度浮點數的存儲和單精度的存儲大同小異，不同的是指數部分和尾數部分的位數。所以這里不再詳細的介紹雙精度的存儲方式了，只將120.5的最后存儲方式圖給出，大家可以仔細想想為何是這樣子的

下面我就這個基礎知識點來解決一個我們的一個疑惑，請看下面一段程序，注意觀察輸出結果

            float f = 2.2f;
            double d = (double)f;
            Console.WriteLine(d.ToString("0.0000000000000"));
            f = 2.25f;
            d = (double)f;
            Console.WriteLine(d.ToString("0.0000000000000"));

可能輸出的結果讓大家疑惑不解，單精度的2.2轉換為雙精度后，精確到小數點后13位后變為了2.2000000476837，而單精度的2.25轉換為雙精度后，變為了2.2500000000000，為何2.2在轉換后的數值更改了而2.25卻沒有更改呢？很奇怪吧？其實通過上面關於兩種存儲結果的介紹，我們已經大概能找到答案。首先我們看看2.25的單精度存儲方式，很簡單 0 1000 0001 001 0000 0000 0000 0000 0000,而2.25的雙精度表示為:0 100 0000 0001 0010 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000,這樣2.25在進行強制轉換的時候，數值是不會變的，而我們再看看2.2呢，2.2用科學計數法表示應該為：將十進制的小數轉換為二進制的小數的方法為將小數*2，取整數部分，所以0.282=0.4，所以二進制小數第一位為0.4的整數部分0，0.4×2=0.8，第二位為0,0.8*2=1.6,第三位為1，0.6×2 = 1.2，第四位為1，0.2*2=0.4，第五位為0，這樣永遠也不可能乘到=1.0，得到的二進制是一個無限循環的排列 00110011001100110011... ,對於單精度數據來說，尾數只能表示24bit的精度，所以2.2的float存儲為:

但是這樣存儲方式，換算成十進制的值，卻不會是2.2的，應為十進制在轉換為二進制的時候可能會不准確，如2.2，而double類型的數據也存在同樣的問題，所以在浮點數表示中會產生些許的誤差，在單精度轉換為雙精度的時候，也會存在誤差的問題，對於能夠用二進制表示的十進制數據，如2.25，這個誤差就會不存在，所以會出現上面比較奇怪的輸出結果。

本文屬作者原創，只發布在博客園，希望大家在轉載的時候，注明出處和作者，謝謝。

http://blog.csdn.net/tenlee/article/details/49123593

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 IEEE754 32位浮點數表示范圍計算機系統導論——小班作業(2)——浮點數的位級表示浮點數 (小數)保留指定的有效位 float轉IEEE 754 32位浮點數（環境：VS 、STM32）深入理解浮點數有效位，浮點數分布浮點數中階碼為什么沒符號位？ java保留兩位有效數字 JavaScript 取兩位小數有效數字 float 的有效數字為七位是怎么得出來的 javaScript保留三位有效數字