判断URL中的中文参数是GB2312还是Utf-8编码

本文转载自查看原文 2015-08-17 14:29 2815

如两个URL字符串：

&q=%E8%A3%99%E5%AD%90&style=grid&seller_type=taobao
&q=%CE%D0%C2%D6%D4%F6%D1%B9&style=list&s=44;

上面有uft-8编码，下面的用gb2312编码,但是怎么自动识别呢？

参考csdn论坛讨论，解决方法有两种：

不管它是utf-8,还是 gbk, 还是....
先按 iso-8859-1 解码
然后用正则匹配一下看是否全文符合 utf-8 规则
符合的话，认为是 utf-8, 不符合认为是 gbk

public  String urlDecode(String code) throws Exception{
		
		String tem = URLDecoder.decode(code, "iso-8859-1");
		if (tem.matches("^(?:[\\x00-\\x7f]|[\\xe0-\\xef][\\x80-\\xbf]{2})+$"))
			return URLDecoder.decode(code, "utf-8");
		else
			return URLDecoder.decode(code,"gb2312");
	}

通用的判断方法：
假定他就是 GBK 的编码：
则将其解码成字节码，然后再把字节码编码为GBK，如果转换回来后与没有转换之前是相等的。这样假设成立，也就是GBK编码。
可以描述成这样：
字符串 abc 如果是GBK编码的话，经过转换
abc -> GBK -> byte -> GBK -> abc2
如果： abc == abc2 说明假设成立，他就是GBK编码，否则不相等。
代码如下：

	public  String decode(String code) throws Exception {

		String fis = URLDecoder.decode(code, "gb2312");
		String sec = new String(fis.getBytes("gb2312"), "gb2312");
		if (fis.equals(sec))
			return fis;
		else {
			return URLDecoder.decode(code, "utf-8");
		}
	}

另外检测字节流是否是UTF8编码

免责声明！

本站转载的文章为个人学习借鉴使用，本站对版权不负任何法律责任。如果侵犯了您的隐私权益，请联系本站邮箱yoyou2525@163.com删除。

猜您在找 URL编码 utf-8 gb2312的区别 PHP转换UTF-8和GB2312的URL编码(转) GB2312、GBK和UTF-8三种编码以及QT中文显示乱码问题字符编码GBK、GB2312和UTF-8的区别与联系 iconv 解决utf-8和gb2312编码转换问题字符编码GB2312、GBK、UTF-8的区别网络编码 GB2312、GBK与UTF-8的区别字符编码：GBK、GB2312、UTF-8 utf-8编码的中文注释在 sourceinsight 显示乱码的解决方法---utf8 转gb2312插件 UTF-8和gb2312区别