Unicode轉義(\uXXXX)的編碼和解碼


在涉及Web前端開發時, 有時會遇到\uXXXX格式表示的字符, 其中XXXX是16進制數字的字符串表示形式, 在js中這個叫Unicode轉義字符, 和\n \r同屬於轉義字符. 在其他語言中也有類似的, 可能還有其它變形的格式.

多數時候遇到需要解碼的情況多點, 所以會先介紹解碼decode, 后介紹編碼encode.

下文會提供Javascript C# Java三種語言下不同方法的實現和簡單說明, 會涉及到正則和位運算的典型用法.

Javascript的實現

解碼的實現

function decode(s) {
    return unescape(s.replace(/\\(u[0-9a-fA-F]{4})/gm, '%$1'));
}

unescape是用來處理%uXXXX這樣格式的字符串, 將\uXXXX替換成%uXXXXunescape就可以處理了.

編碼的實現

復制代碼
function encode1(s) {
    return escape(s).replace(/%(u[0-9A-F]{4})|(%[0-9A-F]{2})/gm, function($0, $1, $2) {
        return $1 && '\\' + $1.toLowerCase() || unescape($2);
    });
}
復制代碼

和解碼中相對應, 使用escape編碼, 然后將%uXXXX替換為\uXXXX, 因為escape還可能把一些字符編碼成%XX的格式, 所以這些字符還需要使用unescape還原回來.

escape編碼結果%uXXXX中的XXXX是大寫的, 所以后面的replace只處理大寫的A-F.

另一種編碼的實現

不使用正則和escape

復制代碼
function encode2(s) {
    var i, c, ret = [],
        pad = '000';
    for (i = 0; i < s.length; i++) {
        c = s.charCodeAt(i);
        if (c > 256) {
            c = c.toString(16);
            ret[i] = '\\u' + pad.substr(0, 4 - c.length) + c;
        } else {
            ret[i] = s[i];
        }
    }
    return ret.join('');
}
復制代碼

遍歷字符串中的字符, 那些charCode大於256的會轉換成16進制字符串c.toString(16), 如果不足4位則左邊補0pad.substr(0, 4 - c.length). 結尾將遍歷的結果合並成字符串返回.


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM