UTF-16,UTF-8和unicode的關系


Unicode是一個字符集,包含世界各個國家的各個文字的二級制代碼

UTF-8,和UTF-16,是Unicode的實現方式,一個文字的Unicode碼長度可以為1,2,4個字節,一個漢字2個字節不夠時使用4個字節。

 utf16:一個存儲單位16bit,也就是2個字節,無符號整數,一個漢字可能占用不同個存儲單元 。

比如,A:41 00,中:2d 4e。

utf16的弊端:0-10ffff,浪費存儲空間,A一個字節就可以存儲,utf16的話需要字節對齊,也就是2個字節,因此utf-8出現

 

utf-8:可變長存儲方案,

優點:節省方案,方便解析位各種類型,根據文字編碼范圍

 

 解析:可以根據上圖二進制發現文字所占字節規律

 

 

 

 

 

 

如有錯誤,歡迎指出,謝謝


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM