Unicode轉義(\uXXXX)的編碼和解碼

相關內容簡體繁體

Unicode轉義(\uXXXX)的編碼和解碼

本文轉載自查看原文 2016-09-21 23:45 2822

在涉及Web前端開發時, 有時會遇到\uXXXX格式表示的字符, 其中XXXX是16進制數字的字符串表示形式, 在js中這個叫Unicode轉義字符, 和\n \r同屬於轉義字符. 在其他語言中也有類似的, 可能還有其它變形的格式.

多數時候遇到需要解碼的情況多點, 所以會先介紹解碼decode, 后介紹編碼encode.

下文會提供Javascript C# Java三種語言下不同方法的實現和簡單說明, 會涉及到正則和位運算的典型用法.

Javascript的實現

解碼的實現

function decode(s) {
    return unescape(s.replace(/\\(u[0-9a-fA-F]{4})/gm, '%$1'));
}

unescape是用來處理%uXXXX這樣格式的字符串, 將\uXXXX替換成%uXXXX后unescape就可以處理了.

編碼的實現

function encode1(s) {
    return escape(s).replace(/%(u[0-9A-F]{4})|(%[0-9A-F]{2})/gm, function($0, $1, $2) {
        return $1 && '\\' + $1.toLowerCase() || unescape($2);
    });
}

和解碼中相對應, 使用escape編碼, 然后將%uXXXX替換為\uXXXX, 因為escape還可能把一些字符編碼成%XX的格式, 所以這些字符還需要使用unescape還原回來.

escape編碼結果%uXXXX中的XXXX是大寫的, 所以后面的replace只處理大寫的A-F.

另一種編碼的實現

不使用正則和escape

function encode2(s) {
    var i, c, ret = [],
        pad = '000';
    for (i = 0; i < s.length; i++) {
        c = s.charCodeAt(i);
        if (c > 256) {
            c = c.toString(16);
            ret[i] = '\\u' + pad.substr(0, 4 - c.length) + c;
        } else {
            ret[i] = s[i];
        }
    }
    return ret.join('');
}

遍歷字符串中的字符, 那些charCode大於256的會轉換成16進制字符串c.toString(16), 如果不足4位則左邊補0pad.substr(0, 4 - c.length). 結尾將遍歷的結果合並成字符串返回.

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 Unicode轉義(\uXXXX)的編碼和解碼 Unicode轉義(\uXXXX)的編碼和解碼 PHP 的 UNICODE 編碼和解碼【js】JS Unicode編碼和解碼（6種方法） python Unicode 編碼解碼【JS】JS實現Html轉義和反轉義（html編碼和解碼）的方法總結 ADPCM編碼和解碼 Huffman編碼和解碼 URL的編碼和解碼 python之編碼和解碼