㈠定義
ASCII ((American Standard Code for Information Interchange): 美國信息交換標准代碼)是基於拉丁字母的一套電腦編碼系統,主要用於顯示現代英語和其他西歐語言。它是最通用的信息交換標准,並等同於國際標准ISO/IEC 646。ASCII第一次以規范標准的類型發表是在1967年,最后一次更新則是在1986年,到目前為止共定義了128個字符。
㈡表達方式
★ASCII 碼使用指定的7 位或8 位二進制數組合來表示128 或256 種可能的字符。標准ASCII 碼也叫基礎ASCII碼,使用7 位二進制數(剩下的1位二進制為0)來表示所有的大寫和小寫字母,數字0 到9、標點符號,以及在美式英語中使用的特殊控制字符。
★0~31及127(共33個)是控制字符或通信專用字符(其余為可顯示字符)
①控制符:LF(換行)、CR(回車)、FF(換頁)、DEL(刪除)、BS(退格)、BEL(響鈴)等
②通信專用字符:SOH(文頭)、EOT(文尾)、ACK(確認)等;
③ASCII值為8、9、10 和13 分別轉換為退格、制表、換行和回車字符;
★32~126(共95個)是字符(32是空格),其中48~57為0到9十個阿拉伯數字。
★65~90為26個大寫英文字母,97~122號為26個小寫英文字母,其余為一些標點符號、運算符號等
★在標准ASCII中,其最高位(b7)用作奇偶校驗位。
⑴所謂奇偶校驗,是指在代碼傳送過程中用來檢驗是否出現錯誤的一種方法,一般分奇校驗和偶校驗兩種。
⑵奇校驗規定:正確的代碼一個字節中1的個數必須是奇數,若非奇數,則在最高位b7添1;
⑶偶校驗規定:正確的代碼一個字節中1的個數必須是偶數,若非偶數,則在最高位b7添1;
㈢ASCII碼表
㈣對控制字符的解釋
⑴ASCII 編碼中第 0~31 個字符(開頭的 32 個字符)以及第 127 個字符(最后一個字符)都是不可見的(無法顯示),但是它們都具有一些特殊功能,所以稱為控制字符( Control Character)或者功能碼(Function Code)。
⑵下面列出了部分控制字符的具體功能:
★NUL (0)
①NULL,空字符。空字符起初本意可以看作為 NOP(中文意為空操作,就是啥都不做的意思),此位置可以忽略一個字符。
②之所以有這個空字符,主要是用於計算機早期的記錄信息的紙帶,此處留個 NUL 字符,意思是先占這個位置,以待后用,比如你哪天想起來了,在這個位置在放一個別的啥字符之類的。
③后來呢,NUL 被用於C語言中,表示字符串的結束,當一個字符串中間出現 NUL 時,就意味着這個是一個字符串的結尾了。這樣就方便按照自己需求去定義字符串,多長都行,當然只要你內存放得下,然后最后加一個\0,即空字符,意思是當前字符串到此結束。
★SOH (1)
①Start Of Heading,標題開始。如果信息溝通交流主要以命令和消息的形式的話,SOH 就可以用於標記每個消息的開始。
②1963年,最開始 ASCII 標准中,把此字符定義為 Start of Message,后來又改為現在的 Start Of Heading。
③現在,這個 SOH 常見於主從(master-slave)模式的 RS232 的通信中,一個主設備,以 SOH 開頭,和從設備進行通信。這樣方便從設備在數據傳輸出現錯誤的時候,在下一次通信之前,去實現重新同步(resynchronize)。如果沒有一個清晰的類似於 SOH 這樣的標記,去標記每個命令的起始或開頭的話,那么重新同步,就很難實現了。
★STX (2) 和 ETX (3)
①STX 表示 Start Of Text,意思是“文本開始”;ETX 表示 End Of Text,意思是“文本結束”。
②通過某種通訊協議去傳輸的一個數據(包),稱為一幀的話,常會包含一個幀頭,包含了尋址信息,即你是要發給誰,要發送到目的地是哪里,其后跟着真正要發送的數據內容。
③而 STX,就用於標記這個數據內容的開始。接下來是要傳輸的數據,最后是 ETX,表明數據的結束。
④而中間具體傳輸的數據內容,ASCII 並沒有去定義,它和你所用的傳輸協議有關。
★BEL (7)
①BELl,響鈴。在 ASCII 編碼中,BEL 是個比較有意思的東西。BEL 用一個可以聽得見的聲音來吸引人們的注意,既可以用於計算機,也可以用於周邊設備(比如打印機)。
②注意,BEL 不是聲卡或者喇叭發出的聲音,而是蜂鳴器發出的聲音,主要用於報警,比如硬件出現故障時就會聽到這個聲音,有的計算機操作系統正常啟動也會聽到這個聲音。蜂鳴器沒有直接安裝到主板上,而是需要連接到主板上的一種外設,現代很多計算機都不安裝蜂鳴器了,即使輸出 BEL 也聽不到聲音,這個時候 BEL 就沒有任何作用了。
★BS (8)
①BackSpace,退格鍵。退格鍵的功能,隨着時間變化,意義也變得不同了。
②退格鍵起初的意思是,在打印機和電傳打字機上,往回移動一格光標,以起到強調該字符的作用。比如你想要打印一個 a,然后加上退格鍵后,就成了 aBS^。在機械類打字機上,此方法能夠起到實際的強調字符的作用,但是對於后來的 CTR 下時期來說,就無法起到對應效果了。
③而現代所用的退格鍵,不僅僅表示光標往回移動了一格,同時也刪除了移動后該位置的字符。
★HT (9)
①Horizontal Tab,水平制表符,相當於 Table/Tab 鍵。
②水平制表符的作用是用於布局,它控制輸出設備前進到下一個表格去處理。而制表符 Table/Tab 的寬度也是靈活不固定的,只不過在多數設備上制表符 Tab 都預定義為 4 個空格的寬度。
③水平制表符 HT 不僅能減少數據輸入者的工作量,對於格式化好的文字來說,還能夠減少存儲空間,因為一個Tab鍵,就代替了 4 個空格。
★LF (10)
①Line Feed,直譯為“給打印機等喂一行”,也就是“換行”的意思。LF 是 ASCII 編碼中常被誤用的字符之一。
②LF 的最原始的含義是,移動打印機的頭到下一行。而另外一個 ASCII 字符,CR(Carriage Return)才是將打印機的頭移到最左邊,即一行的開始(行首)。很多串口協議和 MS-DOS 及 Windows 操作系統,也都是這么實現的。
③而C語言和 Unix 操作系統將 LF 的含義重新定義為“新行”,即 LF 和 CR 的組合效果,也就是回車且換行的意思。
④從程序的角度出發,C語言和 Unix 對 LF 的定義顯得更加自然,而 MS-DOS 的實現更接近於 LF 的本意。
⑤現在人們常將 LF 用做“新行(newline)”的功能,大多數文本編輯軟件也都可以處理單個 LF 或者 CR/LF 的組合了。
★VT (11)
①Vertical Tab,垂直制表符。它類似於水平制表符 Tab,目的是為了減少布局中的工作,同時也減少了格式化字符時所需要存儲字符的空間。VT 控制符用於跳到下一個標記行。
②說實話,還真沒看到有些地方需要用 VT,因為一般在換行的時候都是用 LF 代替 VT 了。
★FF (12)
①Form Feed,換頁。設計換頁鍵,是用來控制打印機行為的。當打印機收到此鍵碼的時候,打印機移動到下一頁。
②不同的設備的終端對此控制符所表現的行為各不同,有些會清除屏幕,有些只是顯示^L
字符,有些只是新換一行而已。例如,Unix/Linux 下的 Bash Shell 和 Tcsh 就把 FF 看做是一個清空屏幕的命令。
★CR (13)
①Carriage return,回車,表示機器的滑動部分(或者底座)返回。
②CR 回車的原意是讓打印頭回到左邊界,並沒有移動到下一行的意思。隨着時間的流逝,后來人們把 CR 的意思弄成了 Enter 鍵,用於示意輸入完畢。
③在數據以屏幕顯示的情況下,人們按下 Enter 的同時,也希望把光標移動到下一行,因此C語言和 Unix 重新定義了 CR 的含義,將其表示為移動到下一行。當輸入 CR 時,系統也常常隱式地將其轉換為LF。
★SO (14) 和 SI (15)
①SO,Shift Out,不用切換;SI,Shift In,啟用切換。
②早在 1960s 年代,設計 ASCII 編碼的美國人就已經想到了,ASCII 編碼不僅僅能用於英文,也要能用於外文字符集,這很重要,定義 Shift In 和 Shift Out 正是考慮到了這點。
③最開始,其意為在西里爾語和拉丁語之間切換。西里爾語 ASCII(也即 KOI-7 編碼)將 Shift 作為一個普通字符,而拉丁語 ASCII(也就是我們通常所說的 ASCII)用 Shift 去改變打印機的字體,它們完全是兩種含義。
④在拉丁語 ASCII 中,SO 用於產生雙倍寬度的字符(類似於全角),而用 SI 打印壓縮的字體(類似於半角)。
★DLE (16)
①Data Link Escape,數據鏈路轉義。
②有時候我們需要在通信過程中發送一些控制字符,但是總有一些情況下,這些控制字符被看成了普通的數據流,而沒有起到對應的控制效果,ASCII 編碼引入 DLE 來解決這類問題。
③如果數據流中檢測到了 DLE,數據接收端會對數據流中接下來的字符另作處理。但是具體如何處理,ASCII 規范中並沒有定義,只是弄了個 DLE 去打斷正常的數據流,告訴接下來的數據要特殊對待。
★DC1 (17)
①Device Control 1,或者 XON – Transmission on。
②這個 ASCII 控制符盡管原先定義為 DC1, 但是現在常表示為 XON,用於串行通信中的軟件流控制。其主要作用為,在通信被控制符 XOFF 中斷之后,重新開始信息傳輸。
③用過串行終端的人應該還記得,當有時候數據出錯了,按 Ctrl+Q(等價於XON)有時候可以起到重新傳輸的效果。這是因為,此 Ctrl+Q 鍵盤序列實際上就是產生 XON 控制符,它可以將那些由於終端或者主機方面,由於偶爾出現的錯誤的 XOFF 控制符而中斷的通信解鎖,使其正常通信。
★DC3 (19)
Device Control 3,或者 XOFF(Transmission off,傳輸中斷)。
★EM (25)
①End of Medium,已到介質末端,介質存儲已滿。
②EM 用於,當數據存儲到達串行存儲介質末尾的時候,就像磁帶或磁頭滾動到介質末尾一樣。其用於表述數據的邏輯終點,即不必非要是物理上的達到數據載體的末尾。
★FS(28)
①File Separator,文件分隔符。FS 是個很有意思的控制字符,它可以讓我們看到 1960s 年代的計算機是如何組織的。
②我們現在習慣於隨機訪問一些存儲介質,比如 RAM、磁盤等,但是在設計 ASCII 編碼的那個年代,大部分數據還是順序的、串行的,而不是隨機訪問的。此處所說的串行,不僅僅指的是串行通信,還指的是順序存儲介質,比如穿孔卡片、紙帶、磁帶等。
③在串行通信的時代,設計這么一個用於表示文件分隔的控制字符,用於分割兩個單獨的文件,是一件很明智的事情。
★GS(29)
①Group Separator,分組符。
②ASCII 定義控制字符的原因之一就是考慮到了數據存儲。
③大部分情況下,數據庫的建立都和表有關,表包含了多條記錄。同一個表中的所有記錄屬於同一類型,不同的表中的記錄屬於不同的類型。
④而分組符 GS 就是用來分隔串行數據存儲系統中的不同的組。值得注意的是,當時還沒有使用 Excel 表格,ASCII 時代的人把它叫做組。
★RS(30)
Record Separator,記錄分隔符,用於分隔一個組或表中的多條記錄。
★US(31)
①Unit Separator,單元分隔符。
②在 ASCII 定義中,數據庫中所存儲的最小的數據項叫做單元(Unit)。而現在我們稱其字段(Field)。單元分隔符 US 用於分割串行數據存儲環境下的不同單元。
③現在的數據庫實現都要求大部分類型都擁有固定的長度,盡管有時候可能用不到,但是對於每一個字段,卻都要分配足夠大的空間,用於存放最大可能的數據。
④這種做法的弊端就是占用了大量的存儲空間,而 US 控制符允許字段具有可變的長度。在 1960s 年代,數據存儲空間很有限,用 US 將不同單元分隔開,能節省很多空間。
★DEL (127)
①Delete,刪除。
②有人也許會問,為何 ASCII 編碼中其它控制字符的值都很小(即 0~31),而 DEL 的值卻很大呢(為 127)?
③這是由於這個特殊的字符是為紙帶而定義的。在那個年代,絕大多數的紙帶都是用7個孔洞去編碼數據的。而 127 這個值所對應的二進制值為111 1111(所有 7 個比特位都是1),將 DEL 用在現存的紙帶上時,所有的洞就都被穿孔了,就把已經存在的數據都擦除掉了,就起到了刪除的作用。
㈤大小規則
常見ASCII碼的大小規則:0~9<A~Z<a~z。
①數字比字母要小。如 “7”<“F”;
②數字0比數字9要小,並按0到9順序遞增。如 “3”<“8” ;
③字母A比字母Z要小,並按A到Z順序遞增。如“A”<“Z” ;
④同個字母的大寫字母比小寫字母要小32。如“A”<“a” 。
⑤幾個常見字母的ASCII碼大小: “A”為65;“a”為97;“0”為 48
㈥擴展ASCII(非 ASCII 編碼)
⑴英語用128個符號編碼就夠了,但是用來表示其他語言,128個符號是不夠的。比如,在法語中,字母上方有注音符號,它就無法用 ASCII 碼表示。於是,一些歐洲國家就決定,利用字節中閑置的最高位編入新的符號。比如,法語中的é
的編碼為130(二進制10000010
)。這樣一來,這些歐洲國家使用的編碼體系,可以表示最多256個符號。
⑵如圖所示: 擴展ASCII編碼表
⑶但是,這里又出現了新的問題。不同的國家有不同的字母,因此,哪怕它們都使用256個符號的編碼方式,代表的字母卻不一樣。比如,130在法語編碼中代表了é
,在希伯來語編碼中卻代表了字母Gimel
(ג
),在俄語編碼中又會代表另一個符號。但是不管怎樣,所有這些編碼方式中,0--127表示的符號是一樣的,不一樣的只是128--255的這一段。
⑷至於亞洲國家的文字,使用的符號就更多了,漢字就多達10萬左右。一個字節只能表示256種符號,肯定是不夠的,就必須使用多個字節表達一個符號。比如,簡體中文常見的編碼方式是 GB2312,使用兩個字節表示一個漢字,所以理論上最多可以表示 256 x 256 = 65536 個符號。
㈦HTML ASCII
⑴HTML 和 XHTML 用標准的 7 比特 ASCII 代碼在網絡上傳輸數據。
⑵7 比特 ASCII 代碼可提供 128 個不同的字符值。
⑶7 比特 可顯示的 ASCII 代碼
⑷比特 設備控制 ASCII代碼
ASCII設備控制代碼最初被設計為用來控制諸如打印機和磁帶驅動器之類的硬件設備。在HTML文檔中這些代碼不會起任何作用。