判斷URL中的中文參數是GB2312還是Utf-8編碼

本文轉載自查看原文 2015-08-17 14:29 2815

如兩個URL字符串：

&q=%E8%A3%99%E5%AD%90&style=grid&seller_type=taobao
&q=%CE%D0%C2%D6%D4%F6%D1%B9&style=list&s=44;

上面有uft-8編碼，下面的用gb2312編碼,但是怎么自動識別呢？

參考csdn論壇討論，解決方法有兩種：

不管它是utf-8,還是 gbk, 還是....
先按 iso-8859-1 解碼
然后用正則匹配一下看是否全文符合 utf-8 規則
符合的話，認為是 utf-8, 不符合認為是 gbk

public  String urlDecode(String code) throws Exception{
		
		String tem = URLDecoder.decode(code, "iso-8859-1");
		if (tem.matches("^(?:[\\x00-\\x7f]|[\\xe0-\\xef][\\x80-\\xbf]{2})+$"))
			return URLDecoder.decode(code, "utf-8");
		else
			return URLDecoder.decode(code,"gb2312");
	}

通用的判斷方法：
假定他就是 GBK 的編碼：
則將其解碼成字節碼，然后再把字節碼編碼為GBK，如果轉換回來后與沒有轉換之前是相等的。這樣假設成立，也就是GBK編碼。
可以描述成這樣：
字符串 abc 如果是GBK編碼的話，經過轉換
abc -> GBK -> byte -> GBK -> abc2
如果： abc == abc2 說明假設成立，他就是GBK編碼，否則不相等。
代碼如下：

	public  String decode(String code) throws Exception {

		String fis = URLDecoder.decode(code, "gb2312");
		String sec = new String(fis.getBytes("gb2312"), "gb2312");
		if (fis.equals(sec))
			return fis;
		else {
			return URLDecoder.decode(code, "utf-8");
		}
	}

另外檢測字節流是否是UTF8編碼

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 URL編碼 utf-8 gb2312的區別 PHP轉換UTF-8和GB2312的URL編碼(轉) GB2312、GBK和UTF-8三種編碼以及QT中文顯示亂碼問題字符編碼GBK、GB2312和UTF-8的區別與聯系 iconv 解決utf-8和gb2312編碼轉換問題字符編碼GB2312、GBK、UTF-8的區別網絡編碼 GB2312、GBK與UTF-8的區別字符編碼：GBK、GB2312、UTF-8 utf-8編碼的中文注釋在 sourceinsight 顯示亂碼的解決方法---utf8 轉gb2312插件 UTF-8和gb2312區別