Unicode是一個字符集,包含世界各個國家的各個文字的二級制代碼
UTF-8,和UTF-16,是Unicode的實現方式,一個文字的Unicode碼長度可以為1,2,4個字節,一個漢字2個字節不夠時使用4個字節。
utf16:一個存儲單位16bit,也就是2個字節,無符號整數,一個漢字可能占用不同個存儲單元 。
比如,A:41 00,中:2d 4e。
utf16的弊端:0-10ffff,浪費存儲空間,A一個字節就可以存儲,utf16的話需要字節對齊,也就是2個字節,因此utf-8出現
utf-8:可變長存儲方案,
優點:節省方案,方便解析位各種類型,根據文字編碼范圍
解析:可以根據上圖二進制發現文字所占字節規律
如有錯誤,歡迎指出,謝謝