float浮點數的二進制存儲方式及轉換

本文轉載自查看原文 2016-12-19 19:19 9336 Principles of Computer Composition

int和float都是4字節32位表示形式。為什么float的范圍大於int？

float精度為6～7位。1.66*10^10的數字結果並不是166 0000 0000 指數越大，誤差越大。

這些問題，都是浮點數的存儲方式造成的。

float和double在存儲方式上都是遵從IEEE的規范的，float遵從的是IEEE R32.24 ,而double 遵從的是R64.53。

無論是單精度還是雙精度在存儲中都分為三個部分：

符號位(Sign) : 0代表正，1代表為負
指數位（Exponent）:用於存儲科學計數法中的指數數據，並且采用移位存儲
尾數部分（Mantissa）：尾數部分

其中float的存儲方式如下圖所示：

而雙精度的存儲方式為:

   將一個float型轉化為內存存儲格式的步驟為：
     （1）先將這個實數的絕對值化為二進制格式。 
     （2）將這個二進制格式實數的小數點左移或右移n位，直到小數點移動到第一個有效數字的右邊。 
     （3）從小數點右邊第一位開始數出二十三位數字放入第22到第0位。 
     （4）如果實數是正的，則在第31位放入“0”，否則放入“1”。 
     （5）如果n 是左移得到的，說明指數是正的，第30位放入“1”。如果n是右移得到的或n=0，則第30位放入“0”。 
     （6）如果n是左移得到的，則將n減去1后化為二進制，並在左邊加“0”補足七位，放入第29到第23位。
         如果n是右移得到的或n=0，則將n化為二進制后在左邊加“0”補足七位，再各位求反，再放入第29到第23位。

R32.24和R64.53的存儲方式都是用科學計數法來存儲數據的，比如8.25用十進制的科學計數法表示就為:8.25*,而120.5可以表示為:1.205*,計算機根本不認識十進制的數據，他只認識0，1，所以在計算機存儲中，首先要將上面的數更改為二進制的科學計數法表示，8.25用二進制表示可表示為1000.01,120.5用二進制表示為：1110110.1用二進制的科學計數法表示1000.01可以表示為1.0001*,1110110.1可以表示為1.1101101*,任何一個數都的科學計數法表示都為1.xxx*,尾數部分就可以表示為xxxx,第一位都是1嘛，干嘛還要表示呀？可以將小數點前面的1省略，所以23bit的尾數部分，可以表示的精度卻變成了24bit，道理就是在這里，那24bit能精確到小數點后幾位呢，我們知道9的二進制表示為1001，所以4bit能精確十進制中的1位小數點，24bit就能使float能精確到小數點后6位，而對於指數部分，因為指數可正可負，8位的指數位能表示的指數范圍就應該為:-127-128了，所以指數部分的存儲采用移位存儲，存儲的數據為元數據+127，下面就看看8.25和120.5在內存中真正的存儲方式。

首先看下8.25，用二進制的科學計數法表示為:1.0001*

按照上面的存儲方式，符號位為:0，表示為正，指數位為:3+127=130 ,位數部分為,故8.25的存儲方式如下圖所示:

而單精度浮點數120.5的存儲方式如下圖所示:

將一個內存存儲的float二進制格式轉化為十進制的步驟： 
     （1）將第22位到第0位的二進制數寫出來，在最左邊補一位“1”，得到二十四位有效數字。將小數點點在最左邊那個“1”的右邊。 
     （2）取出第29到第23位所表示的值n。當30位是“0”時將n各位求反。當30位是“1”時將n增1。 
     （3）將小數點左移n位（當30位是“0”時）或右移n位（當30位是“1”時），得到一個二進制表示的實數。 
     （4）將這個二進制實數化為十進制，並根據第31位是“0”還是“1”加上正號或負號即可。

那么如果給出內存中一段數據，並且告訴你是單精度存儲的話，你如何知道該數據的十進制數值呢？其實就是對上面的反推過程，比如給出如下內存數據：0100001011101101000000000000，首先我們現將該數據分段，0 10000 0101 110 1101 0000 0000 0000 0000，在內存中的存儲就為下圖所示：

根據我們的計算方式，可以計算出，這樣一組數據表示為:1.1101101*=120.5

而雙精度浮點數的存儲和單精度的存儲大同小異，不同的是指數部分和尾數部分的位數。所以這里不再詳細的介紹雙精度的存儲方式了，只將120.5的最后存儲方式圖給出，大家可以仔細想想為何是這樣子的

下面我就這個基礎知識點來解決一個我們的一個疑惑，請看下面一段程序，注意觀察輸出結果

            float f = 2.2f;
            double d = (double)f;
            Console.WriteLine(d.ToString("0.0000000000000"));
            f = 2.25f;
            d = (double)f;
            Console.WriteLine(d.ToString("0.0000000000000"));

可能輸出的結果讓大家疑惑不解，單精度的2.2轉換為雙精度后，精確到小數點后13位后變為了2.2000000476837，而單精度的2.25轉換為雙精度后，變為了2.2500000000000，為何2.2在轉換后的數值更改了而2.25卻沒有更改呢？很奇怪吧？其實通過上面關於兩種存儲結果的介紹，我們已經大概能找到答案。首先我們看看2.25的單精度存儲方式，很簡單 0 1000 0001 001 0000 0000 0000 0000 0000,而2.25的雙精度表示為:0 100 0000 0001 0010 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000,這樣2.25在進行強制轉換的時候，數值是不會變的，而我們再看看2.2呢，2.2用科學計數法表示應該為：將十進制的小數轉換為二進制的小數的方法為將小數*2，取整數部分，所以0.282=0.4，所以二進制小數第一位為0.4的整數部分0，0.4×2=0.8，第二位為0,0.8*2=1.6,第三位為1，0.6×2 = 1.2，第四位為1，0.2*2=0.4，第五位為0，這樣永遠也不可能乘到=1.0，得到的二進制是一個無限循環的排列 00110011001100110011... ,對於單精度數據來說，尾數只能表示24bit的精度，所以2.2的float存儲為:

但是這樣存儲方式，換算成十進制的值，卻不會是2.2的，應為十進制在轉換為二進制的時候可能會不准確，如2.2，而double類型的數據也存在同樣的問題，所以在浮點數表示中會產生些許的誤差，在單精度轉換為雙精度的時候，也會存在誤差的問題，對於能夠用二進制表示的十進制數據，如2.25，這個誤差就會不存在，所以會出現上面比較奇怪的輸出結果。

附注：

小數的二進制表示問題
       首先我們要搞清楚下面兩個問題：
     (1)  十進制整數如何轉化為二進制數
           算法很簡單。舉個例子，11表示成二進制數：
                     11/2=5   余   1
                       5/2=2   余   1
                       2/2=1   余   0
                       1/2=0   余   1
                          0結束         11二進制表示為(從下往上):1011
          這里提一點：只要遇到除以后的結果為0了就結束了，大家想一想，所有的整數除以2是不是一定能夠最終得到0。
          換句話說，所有的整數轉變為二進制數的算法會不會無限循環下去呢？絕對不會，整數永遠可以用二進制精確表示 ，但小數就不一定了。
      (2) 十進制小數如何轉化為二進制數
           算法是乘以2直到沒有了小數為止。舉個例子，0.9表示成二進制數
                     0.9*2=1.8   取整數部分  1
                     0.8(1.8的小數部分)*2=1.6    取整數部分  1
                     0.6*2=1.2   取整數部分  1
                     0.2*2=0.4   取整數部分  0
                     0.4*2=0.8   取整數部分  0
                     0.8*2=1.6   取整數部分  1
                     0.6*2=1.2   取整數部分  0
                              .........      0.9二進制表示為(從上往下): 1100100100100......
           注意：上面的計算過程循環了，也就是說*2永遠不可能消滅小數部分，這樣算法將無限下去。很顯然，小數的二進制表示有時是不可能精確的 。
                其實道理很簡單，十進制系統中能不能准確表示出1/3呢？同樣二進制系統也無法准確表示1/10。這也就解釋了為什么浮點型減法出現了"減不盡"的精度丟失問題。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 Float浮點數轉二進制串和十六進制串 C#中浮點數依IEEE-754標准轉二進制串 (MODBUS 浮點數轉換) 十進制浮點數轉換為二進制 python十進制和二進制的轉換 (含浮點數) 十進制浮點數轉二進制浮點數浮點數的二進制表示浮點數的二進制表示學習筆記 IEEE 754二進制浮點數算術標准浮點數的二進制表示十進制浮點數轉換成IEEE754標准的32浮點數的二進制格式