如何判斷一個字節是否是一個漢字中的一部分

本文轉載自查看原文 2019-12-09 20:33 249

UNICODE是萬能編碼，包含了所有符號的編碼，它規定了所有符號在計算機底層的二進制的表示順序。

在UTF-8編碼中一個中文占三個字節

比如漢字 "張" 對應的三字節編碼是[229 188 160]

但是如何判斷，229 188 160 是組合的呢，這里涉及到一套規則

UTF規定：

如果一個符號只占一個字節，那么這個8位字節的第一位就為0。

如果為兩個字節，那么規定第一個字節的前兩位都為1，然后第一個字節的第三位為0，第二個字節的前兩位為10

然后如果是三個字節的話，那么第一個字節的前三位為111，第四位為0，剩余的兩個字節的前兩位都為10。

所以一個字節最大是 011111111 轉換成十進制是 127 如果大於127則認為不止一個字節

兩個字節最大數是 11011111 10111111 轉成成十進制分別是223 和 191

兩個字節最大數是 11101111 10111111 10111111 轉成成十進制分別是239 和 191 和 191

這里設n為字節

n<128 則為1個字節

128<n<223為兩個字節

223<n<239 為三個字節

這樣可以輕松判斷出來是否是一組

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 C . 干貨將字符串的一部分拷貝到另一個字符串在一PCB中已經畫好的一部分，這個模塊如何運用到另一個PCB中在ps中，怎么把圖片的一部分剪切出來，創建一個新的圖層？判斷一個字符是否是漢字 —— Java 巧用 git rebase 將某一部分 commit 復制到另一個分支 VMware另一個程序鎖定文件的一部分，進程無法訪問有一個實體類，只想返還一部分字段給前端 opencv 替換圖像中的一部分 mysql中取日期的一部分 HTML中圖片的截取一部分顯示