在涉及Web前端開發時, 有時會遇到\uXXXX格式表示的字符, 其中XXXX是16進制數字的字符串表示形式, 在js中這個叫Unicode轉義字符, 和\n \r同屬於轉義字符. 在其他語言中也有類似的, 可能還有其它變形的格式.
多數時候遇到需要解碼的情況多點, 所以會先介紹解碼decode, 后介紹編碼encode.
下文會提供Javascript C# Java三種語言下不同方法的實現和簡單說明, 會涉及到正則和位運算的典型用法.
Javascript的實現
解碼的實現
function decode(s) {
return unescape(s.replace(/\\(u[0-9a-fA-F]{4})/gm, '%$1'));
}
unescape是用來處理%uXXXX這樣格式的字符串, 將\uXXXX替換成%uXXXX后unescape就可以處理了.
編碼的實現
function encode1(s) {
return escape(s).replace(/%(u[0-9A-F]{4})|(%[0-9A-F]{2})/gm, function($0, $1, $2) {
return $1 && '\\' + $1.toLowerCase() || unescape($2);
});
}
和解碼中相對應, 使用escape編碼, 然后將%uXXXX替換為\uXXXX, 因為escape還可能把一些字符編碼成%XX的格式, 所以這些字符還需要使用unescape還原回來.
escape編碼結果%uXXXX中的XXXX是大寫的, 所以后面的replace只處理大寫的A-F.
另一種編碼的實現
不使用正則和escape
function encode2(s) {
var i, c, ret = [],
pad = '000';
for (i = 0; i < s.length; i++) {
c = s.charCodeAt(i);
if (c > 256) {
c = c.toString(16);
ret[i] = '\\u' + pad.substr(0, 4 - c.length) + c;
} else {
ret[i] = s[i];
}
}
return ret.join('');
}
遍歷字符串中的字符, 那些charCode大於256的會轉換成16進制字符串c.toString(16), 如果不足4位則左邊補0pad.substr(0, 4 - c.length). 結尾將遍歷的結果合並成字符串返回.

