轉:http://www.ruanyifeng.com/blog/2007/10/ascii_unicode_and_utf-8.html
1.ASCII 碼
八個二進制位就可以組合出256種狀態,這被稱為一個字節(byte)
使用7 位二進制數(剩下的1位二進制為0)來表示所有的大寫和小寫字母,數字0 到9、標點符號, 以及在美式英語中使用的特殊控制字符。
其中最后一位用於奇偶校驗。
2.Unicode
Unicode能夠表示全世界所有的字節,Unicode最常用的是用兩個字節表示一個字符(如果要用到非常偏僻的字符,就需要4個字節)
ASCII編碼是1個字節,而Unicode編碼通常是2個字節
UTF-8 是 Unicode 的實現方式之一
3.GBK
GBK是只用來編碼漢字的,GBK全稱《漢字內碼擴展規范》,使用雙字節編碼。
4. charset/encoding
Charset (Character set) 字符集: 是對字符抽象表示的集合。包括世界上各種文字、符合和字符。i.e. unicode
Encoding (Charset Encoding) 字符編碼:建立字符集合和計算機系統對應的規則。簡單來說就是,
將字符轉化為計算機可識別的二進制編碼的規則。i.e. utf-8
列表如下:
http://ascii.911cha.com/
https://www.ssec.wisc.edu/~tomw/java/unicode.html#x0000