[轉] UTF-8 字符數字統計的原理 0x80和0xC0


from: http://blog.sina.com.cn/s/blog_7c4f3b160101dv4p.html

最近在公司看代碼,看到一個字符串長度統計的代碼,如下

 
int calcLen(const char* _str)
{
int n = 0;

        char ch = 0;

        while ((ch = *_str))

        {

            CC_BREAK_IF(! ch);

            

            if (0x80 != (0xC0 & ch))

            {

                ++n;

            }

            ++_str;

        }

        return n;   

}
 
其中關於0x80 != (0xC0 & ch)的判斷,百思不得其解,按照ansi表的標准解釋來看,0~127位足以表達對字符數目的統計,也就是說用如下代碼
(0x80 & ch) == 0 
足以判斷這個ch是不是一個字符,因此那種復雜的寫法理論上不只是做ansi字符的判斷,最后四處爬資料,最后得到如下信息,在這里寫下來以供自己備忘
 
其中關於位運算的知識,各位請自行腦補,度娘,谷哥,我這里只想說那個運算的目的
 
0xC0也就是1100, 這個&運算判斷的是下一個ch的頭兩位是什么字符, 因為11能完全反映出本來的數字
對於普通的ansi字符(非擴展集)而言,他的頭一位一定是0(0000 0000 ~ 0111 1111)
對於UTF-8字符而言,因為UTF-8編碼是一種多字節序的形式,他采用如下的數字序規律
 
所有10打頭的在UTF-8里面,表示都是一個多字節序的子序
 
兩個UTF-8字符,打頭則是以110開始, 后面跟10XXXXXX, 10YYYYYY表示接下來的字符
三個則是1110開始,后面跟三個10XXXXXX來表示字符
 
所以在計算字符串個數的時候,只需要判斷當前字符是不是等於10開頭,不等於10開頭就一定是一個單字符或者一個多字符,然后計數器+1即可
 
具體有興趣的童鞋可參閱http://stackoverflow.com/questions/3911536/utf-8-unicode-whats-with-0xc0-and-0x80


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM