Char
C#里面的char,其實就是System.Char類型的別名,它代表一個Unicode字符(是這樣嗎?),占用兩個字節。
例如:char c = ‘A’;
char占用兩個字節,也就是16位,其實本質上char其實就是16位的無符號整型數值,范圍是0到65535,也就是和無符號short的范圍是一樣的。
轉義字符
有一些字符無法通過字面的意思來進行解釋,這時候就可以使用轉義字符。
轉義字符是以 / 開始,后邊跟着一個有特殊意義的字符。
例如:
char newLine = '\n'; 這個表示換行
char backSlash = '\\'; 這個就表示 \
轉義字符的列表如下:
還有\u(\x)這兩個轉義字符可以讓你通過4位16進制的形式來表示任意的Unicode字符,例如:
char copyrightSymbol = '\u00A9'; // ©
char omegaSymbol = '\u03A9'; // Ω
char newLine = '\u000A'; // 換行
轉換
char類型的變量可以隱式的轉換到可容納無符號short類型的數值類型,例如:
字符擴展
char只能代表一個Unicode字符, 其實這句話不太准確。
我們知道Unicode里 65 代表着字母 A,但其實65是A的Unicode代碼點,通常是這樣來表示的 U+0041,16進制的41就是10進制的65。
而看這個例子,德語里面有個字符:ß,它的UniCode是 U+00DF,但就其本身而言,ß 不是一個字母,ß被認為等價於ss(也就是兩個s),例如fußball就相當於fussball。
而用在字符/字符串比較的時候,就不可以把ß當作一個字符來處理,而是把ß=ss。
而ß所對應的U+00DF這個代碼點就是字符擴展(Character expansion)的一個例子,如果想正確的比較字符/串,那么這個代碼點就必須先轉化為其它的多個代碼點,這里就是 U+00DF -> U+0073 + U+0073,也就是ß -> ss,記住,這只是用於比較,而不是展示。
字符代理
字符代理(char surrogates),和字符擴展正好相反。
字符擴展是指,一個字符代表了多個實際的字符;而字符代理呢,就是使用兩個char的實例來表示一個實際的字符。
字符代理之所以存在,是因為它的范圍太小了(0-65535),所以根本無法代表世界上這么多語言的字符。實際上Unicode的代碼點是從0到1114111(0x10FFFF),所以16位的存儲遠遠不夠用。
正是因為這點,Unicode UTF16有一個可以表示所有字符的體系,就是使用兩個連續的16位數值來表示,這就叫做代理對(surrogate pairs)。
在這兩個連續的16位數值里,第一個數的范圍是U+D800到U+DBFF(55296到56319),所以如果您在解析字符/串的時候,解析出來的數值正好落在這個范圍里,那么你就需要把這個char和它后邊的char連在一起進行解析,才能得出真正要表示的字符。
從術語上講,第一個16位數叫做High Surrogate(高代理項),第二個數叫做Low Surrogate(低代理項)。
例如:𝄞 它的Unicode 代碼點是 U+1D11E,它包含一個High Surrogate:U+D834 和一個Low Surrogate:U+DD1E
合並字符
此外有一些代碼點還會修改前一個字符,比如說 ä 這個字符,它可以用U+00E4來表示。
而我也可以使用 a + ̈ (U+0061 + U+0308)的形式來表示該字符,在這里U+0308就表示兩個點,它會修改前一個字符。
在Unicode的標准中,后邊這個字符就叫做 Combining diaeresis(組合用分音符?)
而在實際中字符/串比較的時候,你需要把這兩個字符合並當作U+00E4才可以。
其它
char有ToUpper()和ToLower()兩個方法可以變換大小寫,它們首先會遵循用戶的locale(區域設置),但是這就有可能引起一個bug:
char.ToUpper ('i') == 'I'
這個表達式在土耳其語里面會返回false。
在土耳其語里面 i 被 ToUpper()之后返回的是 İ (看起來像大寫的I上面還有一個點),所以與大寫的 I 不等。
而char也提供了不依賴用戶區域的版本:
- char.ToUpperInvariant ('i')
- char.ToUpper ('i', CultureInfo.InvariantCulture)
這兩種寫法都可以。
另外一點需要注意的是,從整型轉換到char類型后,很有可能變成一個超出了Unicode范圍的字符,這樣的字符就是不合理的。
為了驗證字符是否合理,我們可以使用 char.GetUnicodeCategory()方法,如果結果是UnicodeCategory.OtherNotAssigned,那么該字符就不合理。