有3種編碼模式,並對應3種字符類型。
(1)單字節字符集(single-byte character set (SBCS)).
-在這種編碼模式下,所有的字符都只用一個字節(Byte)標示。
-ASCII是SBCS,用一個字節標示為'\0'的來標識SBCS字符串的結束
-單字節字符包含拉丁文字母表,accented characters及ASCII標准和DOS操作系統定義的圖形字符。
例如"Hi!"是如下存放的. (1Byte存放數值范圍: 00 ~ FF (16進制))
┌─────────────────────────────┐
Size 1Byte 1Byte 1Byte 1Byte
Memory Content(Hex) 48 69 21 00
Charactor H i !
└─────────────────────────────┘
(2)多字節字符集(multi-bye character set (MBCS)).
-在Windows中MBCS包含兩種字符類型,單字節字符和雙字節字符.由於windows使用的多字節字符絕大部分是兩個字節長,所以MBCS常被DBCS代替.
-在DBCS編碼模式中,一些特定的值被保留用來表明他們是雙字節字符的一部分。
例如,在Shift-JIS編碼中(一個常用的日文編碼模式),0x81-0x9f之間和 0xe0-oxfc之間的值表示"這是一個雙字節字符,下一個子節是這個字符的一部分。"這樣的值被稱作"leading bytes",他們都大於0x7f。跟隨在一個leading byte子節后面的字節被稱作"trail byte"。在DBCS中,trail byte可以是任意非0值。像SBCS一樣,DBCS字符串的結束標志也是一個單字節表示的0。
-雙字節字符被用來表示東亞及中東的語言。
┌────────────────────────────┐
Size 2Byte 2Byte 2Byte 1Byte
Memory Content(Hex) C4 E3 BA C3 A3 A1 00
Charactor 你 好 !
└────────────────────────────┘
(3)Unicode。
-Unicode是一種所有的字符都使用兩個字節編碼的編碼模式。Unicode字符有時也被稱作寬字符,因為它比單子節字符寬(使用了更多的存儲空間)。
-注意,Unicode不能被看作MBCS。MBCS的獨特之處在於它的字符使用不同長度的字節編碼。Unicode字符串使用兩個字節表示的0作為它的結束標志。
-Unicode被用在COM及Windows NT操作系統內部。
┌───────────────────────────────┐
Size 2Byte 2Byte 2Byte 2Byte 2Byte
Memory Content(Hex) FF FE 48 00 69 00 21 00 00 00
Charactor H i !
└───────────────────────────────┘
FF FE 標示 Unicode 采用的是小頭方式. (little endian, 第二個(低位)字節在前)
如果是FE FF 則表示為大頭方式. ( big endian unicode ) H 的存儲為 00 48;
當使用char時,處理的是單字節字符。雙字節字符也用char類型來進行操作(這是我們將會看到的關於雙子節字符的很多奇怪的地方之一)。Unicode字符用wchar_t來表示。Unicode字符和字符串常量用前綴L來表示。例如:
wchar_t wch = L'1'; // 2 bytes, 0x0031 wchar_t *wsz = L"Hello"; // 12 bytes, 6 wide characters
2. C語言中, 沒有字符串的數據類型,使用一個以NULL('\0')字符結尾的字符數組來保存字符串。
聲明:
char a[100]; //或 char *p=(char *)malloc(100*sizeof(char));
操作:
//字符串初始化: char a[100]="Hello World!"; char *p="Hello World!"; //賦值: (在定義時可以用"="進行初始化,但是以后不能用"="對C字符串進行賦值.) strcpy(a,"Ni Hao!"); //獲取字符串長度.(不包括 ‘\0’) strlen(a); printf("%s",a);
3. 標准 C++ 的字符串數據類型是 string 類. (需要包含頭文件<string> 或 <string.h>)
申明:
string myStr;
操作:
//初始化: string myStr="Hello World!"; //賦值: myStr="Ni Hao"; //轉化: char* -> string char a[]="Hello World!"; string b; b=a; //轉化: string -> char* string b="Ni Hao"; char a[]="Hello World!"; strcpy(a,b.c_str()); //string 對象不能自動轉化為c字符串。需要利用成員函數c_str(); //轉化: 字符串->數字 int atoi(const char *nptr); double atof(const char *nptr); long atol(const char *nptr);
字符串函數:
串長度: int strlen(char *str)
串拷貝: char *strcpy(char *targetStr,char *orignalStr);
串連接: char *strcat(char *str1,char *str2)
串比較: int strcmp(char *str1,char *str2) //比較的是字符的ASCII碼, str1>str2 返回1, 相等為0
串定位: char *strchr(char *str,char ch) //找到返回字符在字符串中的位置,否則返回-1;
4. CString 類 是Visual C++中最常用的字符串類,繼承自CSimpleStringT類,主要應用在MFC和ATL編程中
聲明:
CString str;
在操作字符串 CString類之前,先了解Windows字符的類型.
┌──────────────────────────────┐
類型 MBCS 中含義 Unicode 中含義
TCHAR char wchar_t
WCHAR wchar_t wchar_t
LPSTR char* char*
LPCSTR const char* const char*
LPWSTR wchar_t* wchar_t*
LPCWSTR const wchar_t* const wchar_t*
LPTSTR TCHAR* TCHAR*
LPCTSTR const TCHAR* const TCHAR*
char 標准c的字符類型(1Byte)
wchar_t 保存UNICODE字符集的類型(2Byte)
└──────────────────────────────┘
TCHAR的定義如下:
#ifdef UNICODE typedef wchar_t TCHAR; #else typedef char TCHAR; #endif
再了解一個宏_T(),使用宏_T(),使代碼有了unicode的意識。
#ifdef UNICODE #define _T(x) L##x #else #define _T(x) x #endif
##是一個預處理操作符,它可以把兩個參數連在一起.
TCHAR str[] = _T("I love c++.");
操作:
//初始化. //法1)直接初始化: CString str="Hello World!"; //法2)通過構造函數初始化化: CString str("aaaaaaaaaa"); CString str('a',10); //長度為10的“aaaaaaaaaa"字符串. //法3)通過加載字符串資源: CString str; str.LoadString(IDS_STR); //法4)使用CString類的成員函數Format進行初始化: CString str; int total=100; str.Format(_T("The total is %d"), total); //轉化: char* -> CString char *p1="This is a string in 8-bit only."; TCHAR *p2=_T("This is a string with unicode-aware."); LPTSTR p=_T("This is a string with unicode-aware."); //等價於上句. CString s1=p1; CString s2(p2); CString s3(p3); //轉化: CString -> char* //法1)使用LPCTSTR 操作符. CString s("Hello World!"); LPCTSTR p=s; //LPCTSTR 操作符(或者更明確地說就是const TCHAR * 操作符)在 CString 類中被重載了,該操作符的定義是返回緩沖區的地址(指向 CString 的 字符串指針). //法2)使用 CString 對象的 GetBuffer 方法 CString s(_T("Hello World!"); LPTSTR p=s.GetBuffer(); //s.ReleaseBuffer(); //delete p; //法3)使用控件 CString str; CListBox *pLB = (CListBox*)GetDlgItem(YOUR_LISTBOX_ID); // 獲取你的ListBox對象指針, //YOUR_LISTBOX_ID為其資源標識 pLB->GetText(pLB->GetCurSel(), str); // 獲取當前選項字符串並存儲於str中