在涉及Web前端開發時, 有時會遇到\uXXXX
格式表示的字符, 其中XXXX
是16進制數字的字符串表示形式, 在js中這個叫Unicode轉義字符, 和\n
\r
同屬於轉義字符. 在其他語言中也有類似的, 可能還有其它變形的格式.
多數時候遇到需要解碼的情況多點, 所以會先介紹解碼decode, 后介紹編碼encode.
下文會提供Javascript C# Java三種語言下不同方法的實現和簡單說明, 會涉及到正則和位運算的典型用法.
Javascript的實現
解碼的實現
function decode(s) { return unescape(s.replace(/\\(u[0-9a-fA-F]{4})/gm, '%$1')); }
unescape
是用來處理%uXXXX
這樣格式的字符串, 將\uXXXX
替換成%uXXXX
后unescape
就可以處理了.
編碼的實現
function encode1(s) { return escape(s).replace(/%(u[0-9A-F]{4})|(%[0-9A-F]{2})/gm, function($0, $1, $2) { return $1 && '\\' + $1.toLowerCase() || unescape($2); }); }
和解碼中相對應, 使用escape
編碼, 然后將%uXXXX
替換為\uXXXX
, 因為escape
還可能把一些字符編碼成%XX
的格式, 所以這些字符還需要使用unescape
還原回來.
escape
編碼結果%uXXXX
中的XXXX
是大寫的, 所以后面的replace
只處理大寫的A-F
.
另一種編碼的實現
不使用正則和escape
function encode2(s) { var i, c, ret = [], pad = '000'; for (i = 0; i < s.length; i++) { c = s.charCodeAt(i); if (c > 256) { c = c.toString(16); ret[i] = '\\u' + pad.substr(0, 4 - c.length) + c; } else { ret[i] = s[i]; } } return ret.join(''); }
遍歷字符串中的字符, 那些charCode
大於256的會轉換成16進制字符串c.toString(16)
, 如果不足4位則左邊補0pad.substr(0, 4 - c.length)
. 結尾將遍歷的結果合並成字符串返回.