63897066

在神經網絡當中，為了盡快落地就需要考慮到數據存儲以及速度問題，這時候將浮點數轉為定點數就是一種比較常規的做法，也就是涉及到Binary neural networks和quantization，這部分有待下一篇繼續補充，現在就要搞定浮點與定點的計算機表示及互轉。看了挺多網上內容，智商有限沒有完全明白，不過最后還是找到了兩篇寫得比較清晰的，特此結合起來解決當前問題。

篇章1

C語言和C#語言中，對於浮點類型的數據采用單精度類型（float）和雙精度類型(double)來存儲，float數據占用32bit,double數據占用64bit,我們在聲明一個變量float f= 2.25f的時候，是如何分配內存的呢？如果胡亂分配，那世界豈不是亂套了么，其實不論是float還是double在存儲方式上都是遵從IEEE的規范的，float遵從的是IEEE R32.24 ,而double 遵從的是R64.53。

無論是單精度還是雙精度在存儲中都分為三個部分：

符號位(Sign) : 0代表正，1代表為負
指數位（Exponent）:用於存儲科學計數法中的指數數據，並且采用移位存儲
尾數部分（Mantissa）：尾數部分

其中float的存儲方式如下圖所示：

而雙精度的存儲方式為:

R32.24和R64.53的存儲方式都是用科學計數法來存儲數據的，比如8.25用十進制的科學計數法表示就為:8.25* $10^{0}$ ；而120.5可以表示為:1.205* $10^{2}$ ,這些小學的知識就不用多說了吧。

而我們傻蛋計算機根本不認識十進制的數據，他只認識0，1，所以在計算機存儲中，首先要將上面的數更改為二進制的科學計數法表示，8.25用二進制表示可表示為1000.01。

在此插播二進制小數與十進制進行互換的做法：

1、十進制轉為二進制：十進制0.125轉二進制為0.001。就是將小數部分不斷乘以2，每次取整數部分，直到為1。

2、二進制轉為十進制：二進制0.001轉為十進制為0.125。將各個位乘以2的負次方，最后將得到的結果相加，0*1/2+0*1/4+1*1/8得十進制的0.125

120.5用二進制表示為：1110110.1用二進制的科學計數法表示1000.01可以表示為1.0001* $2^{3}$ ,1110110.1可以表示為1.1101101* $2^{6}$ ,任何一個數都的科學計數法表示都為1.xxx* $2^{n}$ ,尾數部分就可以表示為xxxx,第一位都是1嘛，干嘛還要表示呀？可以將小數點前面的1省略，所以23bit的尾數部分，可以表示的精度卻變成了24bit，道理就是在這里，那24bit能精確到小數點后幾位呢，我們知道9的二進制表示為1001，所以4bit能精確十進制中的1位小數點，24bit就能使float能精確到小數點后6位，而對於指數部分，因為指數可正可負，8位的指數位能表示的指數范圍就應該為:-127-128了，所以指數部分的存儲采用移位存儲，存儲的數據為元數據+127，下面就看看8.25和120.5在內存中真正的存儲方式。

首先看下8.25，用二進制的科學計數法表示為:1.0001* $2^{3}$

按照上面的存儲方式，符號位為:0，表示為正，指數位為:3+127=130(尚未理解這個127的意義，數值就是 $2^{7}$ -1) ,位數部分為,故8.25的存儲方式如下圖所示:

而單精度浮點數120.5的存儲方式如下圖所示:

那么如果給出內存中一段數據，並且告訴你是單精度存儲的話，你如何知道該數據的十進制數值呢？其實就是對上面的反推過程，比如給出如下內存數據：0100001011101101000000000000，首先我們現將該數據分段，0 10000 0101 110 1101 0000 0000 0000 0000，在內存中的存儲就為下圖所示：

根據我們的計算方式，可以計算出，這樣一組數據表示為:1.1101101*2**6=120.5

而雙精度浮點數的存儲和單精度的存儲大同小異，不同的是指數部分和尾數部分的位數。所以這里不再詳細的介紹雙精度的存儲方式了，只將120.5的最后存儲方式圖給出，大家可以仔細想想為何是這樣子的

下面我就這個基礎知識點來解決一個我們的一個疑惑，請看下面一段程序，注意觀察輸出結果

float f = 2.2f;
double d = (double)f;
Console.WriteLine(d.ToString("0.0000000000000"));
f = 2.25f;
d = (double)f;
Console.WriteLine(d.ToString("0.0000000000000"));

可能輸出的結果讓大家疑惑不解，單精度的2.2轉換為雙精度后，精確到小數點后13位后變為了2.2000000476837，而單精度的2.25轉換為雙精度后，變為了2.2500000000000，為何2.2在轉換后的數值更改了而2.25卻沒有更改呢？很奇怪吧？其實通過上面關於兩種存儲結果的介紹，我們已經大概能找到答案。首先我們看看2.25的單精度存儲方式，很簡單 0 1000 0001 001 0000 0000 0000 0000 0000,而2.25的雙精度表示為:0 100 0000 0001 0010 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000,這樣2.25在進行強制轉換的時候，數值是不會變的，而我們再看看2.2呢，2.2用科學計數法表示應該為：將十進制的小數轉換為二進制的小數的方法為將小數*2，取整數部分，所以0.282=0.4，所以二進制小數第一位為0.4的整數部分0，0.4×2=0.8，第二位為0,0.8*2=1.6,第三位為1，0.6×2 = 1.2，第四位為1，0.2*2=0.4，第五位為0，這樣永遠也不可能乘到=1.0，得到的二進制是一個無限循環的排列 00110011001100110011... ,對於單精度數據來說，尾數只能表示24bit的精度，所以2.2的float存儲為:

但是這樣存儲方式，換算成十進制的值，卻不會是2.2的，應為十進制在轉換為二進制的時候可能會不准確，如2.2，而double類型的數據也存在同樣的問題，所以在浮點數表示中會產生些許的誤差，在單精度轉換為雙精度的時候，也會存在誤差的問題，對於能夠用二進制表示的十進制數據，如2.25，這個誤差就會不存在，所以會出現上面比較奇怪的輸出結果。

篇章2

1. 這篇博客將要討論什么？

說來慚愧，作為計算機科班出身的人，計算機基礎知識掌握並不扎實，這里的基礎指的是計算機體系結構中的內容，諸如數據的表示和處理，如float的表示和運算等。看《CSAPP》方知人家老外把這個東西當成重中之重，大量詳細的原理介紹，並配套大量例題。當初本科學的時候，很簡單的了解了下概念而已，所以應該直接將《CSAPP》當做教材來用，里面習題全做，這樣CS出來的基本知識將掌握的很扎實。

學藝不精的后果就在於：學而不思則罔。聖人太厲害了，總結得很到位。比如最近項目中涉及到浮點和定點的轉換，自己就有點蒙，邊看邊實驗，還算理解了，作文以記之。

一直以來，程序中接觸的數據類型都是int整型，char字符型，float單精度浮點型，double雙精度浮點型。看到浮點和定點一直不知道如何划分這個概念的范疇。以為浮點就是float表示小數，定點就是int可表示整數而已。經過學習明白了顯然是錯誤的。應該是這樣划分的：

浮點：小數點非固定的數，可表示數據范圍較廣，整數，小數都可表示。包含float，double；

定點：小數點固定，可表示整數，小數。int本質是小數點位於末尾的32位定點數而已；

有了這個認識，后面的討論就可以開始了。