浮點數的編碼
(1)浮點數:
小數點位置可移動的數據稱為浮點數,可用下式表示:N=M*RE
其中,M—尾數,
R—階的基數(也就是指數部分的底)。R 一般取2、8或16,為約定的常數,大多數機器 R 取定為2。
E—階的階碼。
當基數約定后,對浮點數的編碼就只需對尾數和階碼部分進行編碼。浮點數在機器中的形式如下:
尾數M用定點小數表示,階碼E是整數。 M乘以RE后小數點的位置改變,改變指數部分RE的值,小數點的位置隨之變動,故稱上述表示法表示的數據為浮點數。
(2)浮點數的編碼
階碼E一般用移碼或補碼表示,尾數用原碼或補碼表示。
機器零 當浮點數的尾數部分M=0時,不論階碼為何值,都看作是零值,稱為機器零。
上溢 浮點數的絕對值太大而機器不能表示的情況,此時浮點數的階碼大於機器所能表示的最大階碼。
下溢 浮點數的絕對值太小(階碼小於機器所能表示的最小階碼)的情況稱為下溢。當浮點數下溢時,通常將尾數各位強置為零 ,按機器零處理。
(3)規格化浮點數
為了便於浮點數之間的運算與比較,也為了提高浮點數的精度,規定計算機中的浮點數尾數部分必須滿足1/R≤|M|<1,也即,小數點后的第一位必須是有效數字。當尾數用補碼表示,且R=2時,其規格化形式一般為:
上式表明,當尾數的最高數值位與符號位相反時,即為規格化形式。但對於M<0 有兩種特殊情況需考慮。
*M=-1/2,按規定是規格化數,但[-0.5]補=1.10…0,與一般情況相悖,為便於硬件判斷,特規定-0.5不 是規格化的數(對補碼而言)。
*M=-1,因小數補碼允許表示-1,且[-1]補=1.00…0.故將-1作為規格化數(對補碼而言 )
(4)IEE754標准
現代計算機中,浮點數一般采用IEEE制定的國際標准,形式如下;
符號位s 階碼e 尾數 總位數
短實數(單精度數) 1 8 23 32
長實數(雙精度數) 1 11 52 64
臨時實數 1 15 64 80
在IEEE754浮點數標准中,符號位也是“0”表示正數,“1”表示負數。階碼也用移碼表示,尾數也是規格化表示,但為如下形式:1.ff---f.在實際表示中,整數位的1省略,稱隱藏位 (臨時實數不采用隱藏位方案)。由於尾數形式的變化,階碼部分也與一般移碼不同,對短實數而言,[X]移=27+x-1=127+x,也就是說此種移碼比一般移碼的值小1,如.[810]移為13310 而不是13410。所以,短實數.長實數和臨時實數的階碼偏移量分別為7FH、3FFH和3FFFH。單精度數所表示的數值為:(-1)5 1.ff---f*2e-127。
注意:浮點數的編碼有多種方法,在實際應用時,首先一定要明確是哪種編碼方法,分清各種編碼方法的不同之處,這樣才能不出差錯。
4.文字的編碼
(1) 西文字符的編碼 目前常用的編碼系統是ASCII碼(American Standard Code for Information Interchange)。
ASCII碼特點:
*每個字符用7位二進制代碼表示。在計算機中每個符號實際用8位表示,最高位置“0”或作為奇偶校驗位。
*共有128個符號。其中95個可印刷字符(包括空格),其余為控制字符。
*字符0——9的高3位編碼為011,低4位為0000——1001(正好為二進制形式的0—9),滿足正常的排序關系,且大、小寫英文一位字母編碼的對應關系簡單,大寫字母的高2位編碼10,低5位為00001-11010(為二進制形式的1—26),小寫字母高2位為11,低5位也為0000—11010。
(2)中文編碼
漢字編碼分輸入碼、機內碼和字形碼等三大類。
漢字輸入碼 主要有數字編碼、拼音編碼和字形編碼等。這幾種編碼方式都是利用相應的編碼規則,用字母數字串代
替漢字,從西文標准鍵盤上輸入漢字。
漢字機內碼 用於漢字信息存儲、交換、檢索等的機內代碼,一般用兩個或三個字節表示一個漢字。為了區別於ASCII
碼,漢字機內代碼中字節的最高位均為“1”。
漢字字形碼 根據漢字字形信息進行編碼,存儲在字形庫中,用於漢字的輸出,常用點陣表示漢字字形。
(3)十進制數的編碼
*字符串形式 一個字節存放一個十進制的數位或符號,用連續的多個字節表示一個完整的十進制數據。
十進制數據的機內表示常用ASCII碼。有前分隔字符串和串兩種方式。
#前分隔字符串 符號位在數字位之前單獨占用一個字節。字符“+”(2B)16表示正號,“-”(2D)16表 示負號。
#后嵌入字符串 將符號位嵌入最低一位數字里。規則:將“-”號變成(40)16與最低位數相加。“+”號省略。
上述兩種表示方法主要用於非數值計算的應用領域,算術運算不方便。
*壓縮十進制數串形式 一個字節存放兩個十進制數位,用連續的多個字節表示一個完整的十進制數據。比前一種形式節省存儲空間並且便於數據處理,應用廣泛。
在壓縮十進制數串形式中,可以用ASCII碼的低4位或BCD碼表示十進制數。符號位也用4位二進制代碼表示,並放在最低數位之后(C)16=(1100)2代表正號,(D)16=(1101)2表示負號。
用十進制數串表示十進制數據的特點是位長可變,但需給出首地址和串長。
插入一點內容: 十進制小數變為二進制
例如:0.25,
轉換過程為:0.25×2=0.5,所以小數點后第一位取0
0.5×2=1.0,所以小數點后第二位取1,現在十進制小數的小數點后為0,所以轉換結束。結果為0.01。
例如:0.65,
轉換過程:0.65×2=1.3,取1,
0.3×2=0.6,取0,
0.6×2=1.2,取1,
0.2×2=0.4,取0………………
結果為0.1010……
好的,下面是實戰,看一個簡單的例子:(沒了解實現機制之前真是頭疼)
float f=0.5 ,應該表示為1* 2^(-1)
看到內存里是怎么表示的 f = 0x3f 00 00 00
二進制的表示是 0011 1111 0000 0000 ............
第31位是0,表示符號+
第23-30 是階碼,一般用移碼表示,-1(1000 0001)的反碼就是0111 1110 (這里用的反碼),不錯
第0-22位是基數,怎么是0,應該是1 啊 ,原來ieee754的浮點數使用了隱含位,即尾數部分要加上1才是真正的尾數
.... 真是的,規矩還真多
再看float f=2.5
0010.1 = 1.01*2(1)
正數,所以32位為0
-1: 0000 0001+ 127 =128 =1000 0000
所以2.5 的內存表示為0100 0000 0000 .................. (0x40 00 00 00)
如果float f=-2.5
負的,所以32位為1
2.5=10.1=1.01*2^1
1+127=128=1000 0000
所以-2.5的內存形式就是1100 0000 0010 0000...................
16進制就是0xc0200000