java跟python類似的做法,在java中字符串的編碼是java修改過的一種Unicode編碼,所以看到java中的字符串,心理要默念這個東西是java修改過的一種Unicode編碼的編碼。
package string; import java.nio.charset.Charset; public class UTF82GBK { public static void main(String[] args) throws Exception { //系統的默認編碼是GBK System.out.println("Default Charset=" + Charset.defaultCharset()); String t = "hfjkds中國中國中國中國中國中國中國中國中國中國中國中國中國中國中國中國中國中國中國中國hfsdkj<img src='sasa' /> fjldsajflkdsjaflkdsjalf <img src='sada' ait=''/>sfdsfadas"; //思路:先轉為Unicode,然后轉為GBK String utf8 = new String(t.getBytes( "UTF-8")); //等同於: // String utf8 = new String(t.getBytes( "UTF-8"),Charset.defaultCharset()); System.out.println(utf8); String unicode = new String(utf8.getBytes(),"UTF-8"); //等同於: // String unicode = new String(utf8.getBytes(Charset.defaultCharset()),"UTF-8"); System.out.println(unicode); String gbk = new String(unicode.getBytes("GBK")); //等同於: // String gbk = new String(unicode.getBytes("GBK"),Charset.defaultCharset()); System.out.println(gbk); } }
java string 的 byte中存儲的其實 是 unicode 但是需要進行處理
byte[] bytes = s.getBytes(); for (byte aByte : bytes) { System.out.println("byte十進制:" + (256 + (int)aByte) + ";16進制:" + String.format("%08x", (256 + (int)aByte))); } System.out.println("------------------------"); byte[] gbks = s.getBytes("GBK"); for (byte aByte : gbks) { System.out.println("GBK-byte十進制 :" + (256 + (int)aByte) + ";16進制:" + String.format("%08x", (256 + (int)aByte))); } ------------ byte十進制:228;16進制:000000e4 byte十進制:184;16進制:000000b8 byte十進制:141;16進制:0000008d ------------------------ GBK-byte十進制 :178;16進制:000000b2 GBK-byte十進制 :187;16進制:000000bb
