計算機中的二進制表示（定點數，浮點數）

1 定點數二進制表示
- 1.1 規則及表示方法
- 1.2 補充
2 浮點數二進制表示
- 2.1 規則及表示方法
- 2.2 平方根倒數速算法(不得不提到Quake-III Arena (雷神之錘3))

1 定點數二進制表示

在計算機內，有符號數有3中表示法：原碼、反碼、補碼。

1.1 規則及表示方法

首先是對有符號數而言:

二進制的最高位是符號位：0–>正，1–>負
正數的原碼，反碼，補碼一樣
負數的反碼==原碼的符號位不變，其他的位取反
負數的補碼==反碼+1
0的反碼，補碼都是0。數值0的補碼只有一個，即：0的補碼=00000000B
計算機運算的時候都是以補碼的方式運算的。

1.2 補充

（-128）沒有相應的原碼和反碼。(-128)=(1000 0000)_補碼
采用補碼的原因:
1. 使用補碼可以使符號位與其他位統一進行處理。
2. 減法可以按照加法處理。如果最高位（符號位）有進位，則進位就舍棄。
已知補碼，求原碼:補碼的補碼。（因為：對於二進制來說先減1后取反和先取反后加1得到的結果是一樣的）

2 浮點數二進制表示

根據國際標准IEEE 754，任意一個二進制浮點數V可以表示成下面的形式：

V = (-1)^s * M * E

(-1)^s 表示符號位，當s=0，V為正數；當s=1，V為負數。

M表示有效數字，大於等於1，小於2。

2^E 表示指數位。

舉例來說：十進制的-5.0，寫成二進制是-101.0，相當於-1.01×2² 。那么，s=1，M=1.01，E=2。

IEEE 754規定，對於32位的浮點數，最高的1位是符號位s，接着的8位是指數E，剩下的23位為有效數字M。

對於64位的浮點數，最高的1位是符號位S，接着的11位是指數E，剩下的52位為有效數字M。

2.1 規則及表示方法

IEEE 754對有效數字M和指數E，還有一些特別規定。

前面說過，1≤M<2，也就是說，M可以寫成1.xxxxxx的形式，其中xxxxxx表示小數部分。IEEE 754規定，在計算機內部保存M時，默認這個數的第一位總是1，因此可以被舍去，只保存后面的xxxxxx部分。比如保存1.01的時候，只保存01，等到讀取的時候，再把第一位的1加上去。這樣做的目的，是節省1位有效數字。以32位浮點數為例，留給 M只有23位，將第一位的1舍去以后，等於可以保存24位有效數字。

至於指數E，情況就比較復雜。

首先，E為一個無符號整數（unsigned int）。這意味着，如果E為8位，它的取值范圍為0~255；如果E為11位，它的取值范圍為0~2047。但是，我們知道，科學計數法中的E是可以出現負數的，所以IEEE 754規定，E的真實值必須由E再減去一個中間數，對於8位的E，這個中間數是127；對於11位的E，這個中間數是1023。
比如，2¹⁰ 的E是10，所以保存成32位浮點數時，必須保存成10(E的真實值)+127=137(E)，即10001001。

然后，指數E還可以再分成三種情況：
（1）E不全為0或不全為1。這時，浮點數就采用上面的規則表示，即指數E的計算值減去127（或1023），得到真實值，再將有效數字M前加上第一位的1。
（2）E全為0。這時，浮點數的指數E等於1-127（或者1-1023），有效數字M不再加上第一位的1，而是還原為 0.xxxxxx的小數。這樣做是為了表示±0，以及接近於0的很小的數字。
（3）E全為1。這時，如果有效數字M全為0，表示±無窮大（正負取決於符號位s）；如果有效數字M不全為0，表示這個數不是一個數（NaN）。

2.2 平方根倒數速算法(不得不提到Quake-III Arena (雷神之錘3))

此段轉自http://blog.renren.com/GetEntry.do?id=491777510&owner=245298353
Quake-III Arena (雷神之錘3)是90年代的經典游戲之一。該系列的游戲不但畫面和內容不錯，而且即使計算機配置低，也能極其流暢地運行。這要歸功於它3D引擎的開發者約翰-卡馬克（John Carmack）。事實上早在90年代初 DOS時代，只要能在PC上搞個小動畫都能讓人驚嘆一番的時候，John Carmack就推出了石破天驚的Castle Wolfstein, 然后再接再勵，doom, doomII, Quake…每次都把3-D技術推到極致。他的3D引擎代碼資極度高效，幾乎是在壓榨PC機的每條運算指令。當初MS的Direct3D也得聽取他的意見，修改了不少API。

最近，QUAKE的開發商ID SOFTWARE 遵守GPL協議，公開了QUAKE-III的原代碼，讓世人有幸目睹Carmack傳奇的3D引擎的原碼。這是QUAKE-III原代碼的下載地址： http://www.fileshack.com/file.x?fid=7547

(下面是官方的下載網址，搜索 “quake3-1.32b-source.zip” 可以找到一大堆中文網頁的。 ftp://ftp.idsoftware.com/idstuff/source/quake3-1.32b-source.zip)

我們知道，越底層的函數，調用越頻繁。3D引擎歸根到底還是數學運算。那么找到最底層的數學運算函數（在 game/code/q_math.c），必然是精心編寫的。里面有很多有趣的函數，很多都令人驚奇，估計我們幾年時間都學不完。在game/code/q_math.c里發現了這樣一段代碼。它的作用是將一個數開平方並取倒，經測試這段代碼比 (float)(1.0/sqrt(x))快4倍：

 1 float Q_rsqrt( float number )
 2 {
 3         long i;
 4         float x2, y;
 5         const float threehalfs = 1.5F;
 6  
 7         x2 = number * 0.5F;
 8         y  = number;
 9         i  = * ( long * ) &y;                       // evil floating point bit level hacking
10         i  = 0x5f3759df - ( i >> 1 );               // what the fuck?
11         y  = * ( float * ) &i;
12         y  = y * ( threehalfs - ( x2 * y * y ) );   // 1st iteration
13 //      y  = y * ( threehalfs - ( x2 * y * y ) );   // 2nd iteration, this can be removed
14  
15         return y;
16 }

函數返回1/sqrt(x)，這個函數在圖像處理中比sqrt(x)更有用。注意到這個函數只用了一次疊代！（其實就是根本沒用疊代，直接運算）。編譯，實驗，這個函數不僅工作的很好，而且比標准的sqrt()函數快4倍！要知道，編譯器自帶的函數，可是經過嚴格仔細的匯編優化的啊！ 這個簡潔的函數，最核心，也是最讓人費解的，就是標注了“what the fuck?”的一句 i = 0x5f3759df - ( i >> 1 );

再加上y = y * ( threehalfs - ( x2 * y * y ) ); 兩句話就完成了開方運算！而且注意到，核心那句是定點移位運算，速度極快！特別在很多沒有乘法指令的RISC結構CPU上，這樣做是極其高效的。

算法的原理其實不復雜,就是牛頓迭代法,用x-f(x)/f'(x)來不斷的逼近f(x)=a的根。

沒錯，一般的求平方根都是這么循環迭代算的但是卡馬克(quake3作者)真正牛B的地方是他選擇了一個神秘的常數 0x5f3759df 來計算那個猜測值，就是我們加注釋的那一行，那一行算出的值非常接近1/sqrt(n)，這樣我們只需要 2次牛頓迭代就可以達到我們所需要的精度。