浮點數在計算機內存中的表示(IEEE 754規定1位是符號位,8位是指數,剩下的23位為有效數字)


本文轉載自:阮一峰的博客,http://www.ruanyifeng.com/blog/2010/06/ieee_floating-point_representation.html

張玉彬的博客 http://www.cnblogs.com/jillzhang/archive/2007/06/24/793901.html

 

 

1.
前幾天,我在讀一本C語言教材,有一道例題:

  #include <stdio.h>

  void main(void){

    int num=9; /* num是整型變量,設為9 */

    float* pFloat=&num; /* pFloat表示num的內存地址,但是設為浮點數 */

    printf("num的值為:%d\n",num); /* 顯示num的整型值 */

    printf("*pFloat的值為:%f\n",*pFloat); /* 顯示num的浮點值 */

    *pFloat=9.0; /* 將num的值改為浮點數 */

    printf("num的值為:%d\n",num); /* 顯示num的整型值 */

    printf("*pFloat的值為:%f\n",*pFloat); /* 顯示num的浮點值 */

  }

運行結果如下:

  num的值為:9
  *pFloat的值為:0.000000
  num的值為:1091567616
  *pFloat的值為:9.000000

我很驚訝,num和*pFloat在內存中明明是同一個數,為什么浮點數和整數的解讀結果會差別這么大?

要理解這個結果,一定要搞懂浮點數在計算機內部的表示方法。我讀了一些資料,下面就是我的筆記。

2.
在討論浮點數之前,先看一下整數在計算機內部是怎樣表示的。

  int num=9;

上面這條命令,聲明了一個整數變量,類型為int,值為9(二進制寫法為1001)。普通的32位計算機,用4個字節表示int變量,所以9就被保存為00000000 00000000 00000000 00001001,寫成16進制就是0x00000009。

那么,我們的問題就簡化成:為什么0x00000009還原成浮點數,就成了0.000000?

3.
根據國際標准IEEE 754,任意一個二進制浮點數V可以表示成下面的形式:

  

  (1)(-1)^s表示符號位,當s=0,V為正數;當s=1,V為負數。

  (2)M表示有效數字,大於等於1,小於2。

  (3)2^E表示指數位。

舉例來說,十進制的5.0,寫成二進制是101.0,相當於1.01×2^2。那么,按照上面V的格式,可以得出s=0,M=1.01,E=2。

十進制的-5.0,寫成二進制是-101.0,相當於-1.01×2^2。那么,s=1,M=1.01,E=2。

IEEE 754規定,對於32位的浮點數,最高的1位是符號位s,接着的8位是指數E,剩下的23位為有效數字M。

對於64位的浮點數,最高的1位是符號位S,接着的11位是指數E,剩下的52位為有效數字M。

5.
IEEE 754對有效數字M和指數E,還有一些特別規定。

前面說過,1≤M<2,也就是說,M可以寫成1.xxxxxx的形式,其中xxxxxx表示小數部分。IEEE 754規定,在計算機內部保存M時,默認這個數的第一位總是1,因此可以被舍去,只保存后面的xxxxxx部分。比如保存1.01的時候,只保存01,等到讀取的時候,再把第一位的1加上去。這樣做的目的,是節省1位有效數字。以32位浮點數為例,留給M只有23位,將第一位的1舍去以后,等於可以保存24位有效數字。

至於指數E,情況就比較復雜。

首先,E為一個無符號整數(unsigned int)。這意味着,如果E為8位,它的取值范圍為0~255;如果E為11位,它的取值范圍為0~2047。但是,我們知道,科學計數法中的E是可以出現負數的,所以IEEE 754規定,E的真實值必須再減去一個中間數,對於8位的E,這個中間數是127;對於11位的E,這個中間數是1023。

比如,2^10的E是10,所以保存成32位浮點數時,必須保存成10+127=137,即10001001。

然后,指數E還可以再分成三種情況:

(1)E不全為0或不全為1。這時,浮點數就采用上面的規則表示,即指數E的計算值減去127(或1023),得到真實值,再將有效數字M前加上第一位的1。

(2)E全為0。這時,浮點數的指數E等於1-127(或者1-1023),有效數字M不再加上第一位的1,而是還原為0.xxxxxx的小數。這樣做是為了表示±0,以及接近於0的很小的數字。

(3)E全為1。這時,如果有效數字M全為0,表示±無窮大(正負取決於符號位s);如果有效數字M不全為0,表示這個數不是一個數(NaN)。

6.

好了,關於浮點數的表示規則,就說到這里。

下面,讓我們回到一開始的問題:為什么0x00000009還原成浮點數,就成了0.000000?

首先,將0x00000009拆分,得到第一位符號位s=0,后面8位的指數E=00000000,最后23位的有效數字M=000 0000 0000 0000 0000 1001。

由於指數E全為0,所以符合上一節的第二種情況。因此,浮點數V就寫成:

  V=(-1)^0×0.00000000000000000001001×2^(-126)=1.001×2^(-146)

顯然,V是一個很小的接近於0的正數,所以用十進制小數表示就是0.000000。

7.
再看例題的第二部分。

請問浮點數9.0,如何用二進制表示?還原成十進制又是多少?

首先,浮點數9.0等於二進制的1001.0,即1.001×2^3。

那么,第一位的符號位s=0,有效數字M等於001后面再加20個0,湊滿23位,指數E等於3+127=130,即10000010。

所以,寫成二進制形式,應該是s+E+M,即0 10000010 001 0000 0000 0000 0000 0000。這個32位的二進制數,還原成十進制,正是1091567616。

下一篇

 

 無論是單精度還是雙精度在存儲中都分為三個部分:

  1. 符號位(Sign) : 0代表正,1代表為負
  2. 指數位(Exponent):用於存儲科學計數法中的指數數據,並且采用移位存儲
  3. 尾數部分(Mantissa):尾數部分

 其中float的存儲方式如下圖所示:

float類型的存儲方式

而雙精度的存儲方式為:

 

double類型數據的存儲方式

    R32.24和R64.53的存儲方式都是用科學計數法來存儲數據的,比如8.25用十進制的科學計數法表示就為:8.25*clip_image0021,而120.5可以表示為:1.205*clip_image0022,這些小學的知識就不用多說了吧。而我們傻蛋計算機根本不認識十進制的數據,他只認識0,1,所以在計算機存儲中,首先要將上面的數更改為二進制的科學計數法表示,8.25用二進制表示可表示為1000.01,我靠,不會連這都不會轉換吧?那我估計要沒轍了。120.5用二進制表示為:1110110.1用二進制的科學計數法表示1000.01可以表示為1.0001*clip_image002[2],1110110.1可以表示為1.1101101*clip_image002[3],任何一個數都的科學計數法表示都為1.xxx*clip_image002[1],尾數部分就可以表示為xxxx,第一位都是1嘛,干嘛還要表示呀?可以將小數點前面的1省略,所以23bit的尾數部分,可以表示的精度卻變成了24bit,道理就是在這里,那24bit能精確到小數點后幾位呢,我們知道9的二進制表示為1001,所以4bit能精確十進制中的1位小數點,24bit就能使float能精確到小數點后6位,而對於指數部分,因為指數可正可負,8位的指數位能表示的指數范圍就應該為:-127-128了,所以指數部分的存儲采用移位存儲,存儲的數據為元數據+127,下面就看看8.25和120.5在內存中真正的存儲方式。

     首先看下8.25,用二進制的科學計數法表示為:1.0001*clip_image002[2]

按照上面的存儲方式,符號位為:0,表示為正,指數位為:3+127=130 ,位數部分為,故8.25的存儲方式如下圖所示:

單精度浮點數8.25的存儲方式

而單精度浮點數120.5的存儲方式如下圖所示:

單精度數120.5的存儲方式

那么如果給出內存中一段數據,並且告訴你是單精度存儲的話,你如何知道該數據的十進制數值呢?其實就是對上面的反推過程,比如給出如下內存數據:0100001011101101000000000000,首先我們現將該數據分段,0 10000 0101 110 1101 0000 0000 0000 0000,在內存中的存儲就為下圖所示:

根據我們的計算方式,可以計算出,這樣一組數據表示為:1.1101101*clip_image002[3]=120.5

而雙精度浮點數的存儲和單精度的存儲大同小異,不同的是指數部分和尾數部分的位數。所以這里不再詳細的介紹雙精度的存儲方式了,只將120.5的最后存儲方式圖給出,大家可以仔細想想為何是這樣子的

文本框: 0     100 0000 0101    1101 1010 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000

下面我就這個基礎知識點來解決一個我們的一個疑惑,請看下面一段程序,注意觀察輸出結果

            float f = 2.2f;
            double d = (double)f;
            Console.WriteLine(d.ToString("0.0000000000000"));
            f = 2.25f;
            d = (double)f;
            Console.WriteLine(d.ToString("0.0000000000000"));

可能輸出的結果讓大家疑惑不解,單精度的2.2轉換為雙精度后,精確到小數點后13位后變為了2.2000000476837,而單精度的2.25轉換為雙精度后,變為了2.2500000000000,為何2.2在轉換后的數值更改了而2.25卻沒有更改呢?很奇怪吧?其實通過上面關於兩種存儲結果的介紹,我們已經大概能找到答案。首先我們看看2.25的單精度存儲方式,很簡單 0 1000 0001 001 0000 0000 0000 0000 0000,而2.25的雙精度表示為:0 100 0000 0001 0010 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000,這樣2.25在進行強制轉換的時候,數值是不會變的,而我們再看看2.2呢,2.2用科學計數法表示應該為:將十進制的小數轉換為二進制的小數的方法為將小數*2,取整數部分,所以0.282=0.4,所以二進制小數第一位為0.4的整數部分0,0.4×2=0.8,第二位為0,0.8*2=1.6,第三位為1,0.6×2 = 1.2,第四位為1,0.2*2=0.4,第五位為0,這樣永遠也不可能乘到=1.0,得到的二進制是一個無限循環的排列 00110011001100110011... ,對於單精度數據來說,尾數只能表示24bit的精度,所以2.2的float存儲為:

單精度數202的存儲方式

但是這樣存儲方式,換算成十進制的值,卻不會是2.2的,應為十進制在轉換為二進制的時候可能會不准確,如2.2,而double類型的數據也存在同樣的問題,所以在浮點數表示中會產生些許的誤差,在單精度轉換為雙精度的時候,也會存在誤差的問題,對於能夠用二進制表示的十進制數據,如2.25,這個誤差就會不存在,所以會出現上面比較奇怪的輸出結果。

本文屬作者原創,只發布在博客園,希望大家在轉載的時候,注明出處和作者,謝謝。

http://blog.csdn.net/tenlee/article/details/49123593


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM