關於C#(生僻字、繁體字)和Java的URL轉碼GBK后結果不一樣的問題解決


業務背景:

       服務端是用Java寫的,客戶端的是使用C#寫的,他們交互以客戶端以http協議方式請求服務端,http請求方式要求URL轉碼為GBK。但是后來發現,服務端收到客戶端提交的GBK字符,偶爾會有亂碼。於是將同一個字符串分別用URL轉換GBK,然后發現只有一點點不一樣。
 
示例如下:
       字符串:贇俶鎮臨釵閣紅昇號瀍業區號鋕發廠劉東區灣業區實業蘭創黃鐰甪恆
       C#轉碼結果:
%daS%82m%e6%82%c5R%e2O%b8%f3%bct%95N%cc%96%9ee%98I%85%5e%cc%96%e4k%b0l%8fS%84%a2%96%7c%85%5e%9e%b3%98I%85%5e%8c%8d%98I%ccm%84%93%fcS%e8A%aef%90a
 
      Java轉碼結果:
%DA%53%82%6D%E6%82%C5%52%E2%4F%B8%F3%BC%74%95%4E%CC%96%9E%65%98%49%85%5E%CC%96%E4%6B%B0%6C%8F%53%84%A2%96%7C%85%5E%9E%B3%98%49%85%5E%8C%8D%98%49%CC%6D%84%93%FC%53%E8%41%AE%66%90%61
 
    對比結果截圖:
  
 
 
找了很久的原因都沒有發現時什么問題,最后查了一下GBK字符的 范圍
 
發現JAVA轉出來是正確的,C#轉出來是錯誤的。每個漢子字符轉出GBK應該都睡四個字節碼,C#中有些字轉出來只有三個字符(當然每兩個字符會以%拼接),盯着C#轉出來的字節碼和GBK進行對比,發現C#中最后一個字母有些是大於F的,看到GBK字符集中是沒有最大就到F不可能有什么NMSWZ等這些字母。猜測三個字母中應該最后一個字母是需要轉出16進制的。然會就試着轉了一下,果然和Java的一樣的。
 
以下是C#的代碼:
 1 public static void ConvertURLGBKEnCode()
 2         {
 3             string str2 = "贇俶鎮臨釵閣紅昇號瀍業區號鋕發廠劉東區灣業區實業蘭創黃鐰甪恆";
 4 
 5             string str = string.Empty;
 6             string urlEnCodeStr = string.Empty;
 7             Regex reg = new Regex(@"[\u4e00-\u9fa5]");//正則表達式
 8             StringBuilder sb1 = new StringBuilder();
 9             for (int i = 0; i <= str2.Length - 1; i++)
10             {
11                 string tempStr = str2[i].ToString();
12                 urlEnCodeStr = System.Web.HttpUtility.UrlEncode(tempStr, Encoding.GetEncoding("GBK"));
13 
14                 // 如果是漢子的話,將URL編碼過后再進行16進制轉換
15                 if (reg.IsMatch(tempStr))
16                 {
17                     // 判斷轉碼過后的字符,如果只有4位的話,代表最后一個字符需要轉換成16進制行拼接
18                     if (urlEnCodeStr.Length <= 4)
19                     {
20                         StringBuilder sb = new StringBuilder();
21                         string firstStr = urlEnCodeStr.Substring(0, 3);
22                         string LastStr = urlEnCodeStr.Substring(3, 1);
23                         sb.Append(firstStr + "%");
24                         byte[] targetData = Encoding.GetEncoding("GBK").GetBytes(LastStr);
25                         for (int j = 0; j < targetData.Length; j++)
26                         {
27                             sb.Append(targetData[j].ToString("x2"));
28                         }
29                         sb1.Append(sb.ToString());
30                     }
31                     else
32                     {
33                         sb1.Append(urlEnCodeStr);
34                     }
35                 }
36                 else
37                 {
38                     sb1.Append(urlEnCodeStr);
39                 }
40             }
41 
42             Console.WriteLine(sb1.ToString());
43 
44             Console.ReadLine();
45         }
View Code

 

對於漢字中的生僻字和繁體字問題已經解決了,但是剛剛有跑一下特殊符號又郁悶了。

將上面C#的代碼 :if (reg.IsMatch(tempStr))  改為 if (urlEnCodeStr.Length > 1) 對於GBK中包含的特殊字符都是可以順利轉換的,但是,不是GBK字符符號的轉換就沒法確認了。

如:符號:“-”

C#轉換結果:“-”;   Java:“-”

字符:"("

C# 轉換結果: "(",而Java跑出來的結果卻是"%28",關於這個左括號我查過了,是不屬於GBK中的字符,應該也不算特殊字符,應該是直接顯示的,像字母和數字以及"-"等字符一樣,但就是不知道為什么,Java會轉換成"%28"。

關於這個不是GBK的字符,進行轉換GBK的問題還有待研究。

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM