\x 開頭編碼的數據解碼成中文

本文轉載自查看原文 2016-01-05 11:38 54127 python

在python里，直接decode('utf-8')即可

>>> "\xE5\x85\x84\xE5\xBC\x9F\xE9\x9A\xBE\xE5\xBD\x93 \xE6\x9D\x9C\xE6\xAD\x8C".decode('utf-8')
u'\u5144\u5f1f\u96be\u5f53 \u675c\u6b4c'
>>> print "\xE5\x85\x84\xE5\xBC\x9F\xE9\x9A\xBE\xE5\xBD\x93 \xE6\x9D\x9C\xE6\xAD\x8C".decode('utf-8')
兄弟難當杜歌
>>>

在java里未發現直接解碼的函數，不過只要理解了數據是如何編碼的，就可以很快的進行解碼，推薦閱讀http://www.ruanyifeng.com/blog/2007/10/ascii_unicode_and_utf-8.html

UTF-8是unicode編碼的一種落地方案：

\x對應的是UTF-8編碼的數據，通過轉化規則可以轉換為Unicode編碼，就能得到對應的漢字，轉換規則很簡單，先將\x去掉，轉換為數字，然后進行對應的位移操作即可，需要注意的是先要判斷utf-8的位數：

 val pattern = """(\d+\.\d+\.\d+\.\d+) \- (\S+) (\S+) \[([^\]]+)\] \"(\w+) (\S+) \S+\" (\S+) (\S+) \"([^\"]+)\" \"([^\"]+)\" \"([^\"]+)\" \"([^\"]+)""".r
  val decodeDataPattern = """(\\x([0-9A-Z]){2})+""".r
  def decodeUtf8(utf8Str:String):String={
    var data =   decodeDataPattern.replaceAllIn(utf8Str, m=>{
        var item = decodeXdata(m.toString())
        item
     }) 
     return data
   }
     
   def decodeXdata(utf8Str:String):String={
     var arr = utf8Str.split("\\\\x")
     var result = new StringBuilder()
     var isMatchEnd = true
     var matchIndex = 0
     var currentWordLength = 0
     var current = 0
     var e0=0xe0;
     
     for(item <-arr){
        var str = item.trim
        if(str.length()>0){
           var currentCode =  Integer.parseInt(str, 16);
           if(isMatchEnd){
             isMatchEnd = false
             var and = currentCode & e0;
             if(and == 0xe0){
                matchIndex = 1;
                currentWordLength = 3;
                current =  (currentCode & 0x1f) <<12  // 3位編碼的
             }else if(and==96){
                matchIndex = 1;
                currentWordLength = 2;
                current =  (currentCode & 0x1f) <<6 // 2位編碼的
             }else{
               current = currentCode  // 1位編碼的
             }
          }else{
            matchIndex = matchIndex+1;
            if(matchIndex == 2)
            {
              current+=(currentCode & 0x3f) <<6
            }else{
               current+=(currentCode & 0x3f) 
            }
          }
           if(matchIndex==currentWordLength){
               var hex = Integer.toHexString(current)
               hex = if(hex.length()<4) "\\u00"+hex else "\\u"+hex  //補0
               result.append(new String(StringEscapeUtils.unescapeJava(hex).getBytes,"utf-8")) 
               current = 0
               matchIndex=0
               isMatchEnd = true
           }
        }
     }
     
     return result.toString()
   }

Javascript \x 反斜杠x 16進制編解碼

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 &#x開頭的是什么編碼? &#x開頭的是什么編碼呢。瀏覽器可以解釋它。如中國等同與中文"中國"? byte編碼格式解碼成其它格式 Cookie數據的編碼及解碼 python \x 開頭的字符轉碼為中文 C# URL 中文編碼與解碼 vue 給url 中文參數添加編碼解碼 vue 給url 中文參數添加編碼解碼 jsoncpp 解碼編碼中文為空亂碼問題 PHP JSON 數據編碼和解碼

\x 開頭編碼的數據解碼成中文

Javascript \x 反斜杠x 16進制 編解碼

免責聲明！

Javascript \x 反斜杠x 16進制編解碼