C,C++ 的字符串和操作.

本文轉載自查看原文 2012-06-01 15:54 7247 C/C++

1. 字符基礎: ASCII, MBCS/DBCS, Unicode

   有3種編碼模式，並對應3種字符類型。
   (1)單字節字符集（single-byte character set (SBCS)).
      -在這種編碼模式下，所有的字符都只用一個字節(Byte)標示。
      -ASCII是SBCS,用一個字節標示為'\0'的來標識SBCS字符串的結束
      -單字節字符包含拉丁文字母表，accented characters及ASCII標准和DOS操作系統定義的圖形字符。
       例如"Hi!"是如下存放的. (1Byte存放數值范圍: 00 ~ FF (16進制))
      ┌─────────────────────────────┐
          Size                                  1Byte       1Byte      1Byte     1Byte
          Memory Content(Hex)     48          69             21          00
          Charactor                            H            i                 !
      └─────────────────────────────┘

   (2)多字節字符集(multi-bye character set (MBCS)).
      -在Windows中MBCS包含兩種字符類型,單字節字符和雙字節字符.由於windows使用的多字節字符絕大部分是兩個字節長，所以MBCS常被DBCS代替.
      -在DBCS編碼模式中，一些特定的值被保留用來表明他們是雙字節字符的一部分。
       例如，在Shift-JIS編碼中（一個常用的日文編碼模式），0x81-0x9f之間和 0xe0-oxfc之間的值表示"這是一個雙字節字符，下一個子節是這個字符的一部分。"這樣的值被稱作"leading bytes",他們都大於0x7f。跟隨在一個leading byte子節后面的字節被稱作"trail byte"。在DBCS中，trail byte可以是任意非0值。像SBCS一樣，DBCS字符串的結束標志也是一個單字節表示的0。
      -雙字節字符被用來表示東亞及中東的語言。
      ┌────────────────────────────┐
         Size                                   2Byte        2Byte      2Byte        1Byte
         Memory Content(Hex)     C4 E3       BA C3      A3 A1       00
         Charactor                               你            好             ！
      └────────────────────────────┘

    (3)Unicode。
      -Unicode是一種所有的字符都使用兩個字節編碼的編碼模式。Unicode字符有時也被稱作寬字符，因為它比單子節字符寬（使用了更多的存儲空間）。
      -注意，Unicode不能被看作MBCS。MBCS的獨特之處在於它的字符使用不同長度的字節編碼。Unicode字符串使用兩個字節表示的0作為它的結束標志。
      -Unicode被用在COM及Windows NT操作系統內部。
      ┌───────────────────────────────┐
          Size                                 2Byte       2Byte      2Byte     2Byte     2Byte
          Memory Content(Hex) FF FE       48 00      69 00     21 00     00 00
         Charactor                                             H              i                !
      └───────────────────────────────┘
       FF FE 標示 Unicode 采用的是小頭方式. (little endian, 第二個(低位)字節在前)
       如果是FE FF 則表示為大頭方式. ( big endian unicode ) H 的存儲為 00 48;
　
       當使用char時，處理的是單字節字符。雙字節字符也用char類型來進行操作（這是我們將會看到的關於雙子節字符的很多奇怪的地方之一）。Unicode字符用wchar_t來表示。Unicode字符和字符串常量用前綴L來表示。例如：

 wchar_t wch = L'1'; // 2 bytes, 0x0031
 wchar_t *wsz = L"Hello"; // 12 bytes, 6 wide characters

2. C語言中, 沒有字符串的數據類型，使用一個以NULL('\0')字符結尾的字符數組來保存字符串。

聲明:

char a[100];  
 //或 char *p=(char *)malloc(100*sizeof(char));

操作:

//字符串初始化:
char a[100]="Hello World!"; 
char *p="Hello World!";

//賦值: (在定義時可以用"="進行初始化，但是以后不能用"="對C字符串進行賦值.)
strcpy(a,"Ni Hao!");

//獲取字符串長度.(不包括 ‘\0’)
strlen(a);
printf("%s",a);

3. 標准 C++ 的字符串數據類型是 string 類. (需要包含頭文件<string> 或 <string.h>)

申明:

string myStr;

操作:

//初始化:
string myStr="Hello World!";

//賦值:
myStr="Ni Hao";

//轉化: char* -> string 
char a[]="Hello World!";
string b;
b=a; 

//轉化: string -> char*
string b="Ni Hao";
char a[]="Hello World!";
strcpy(a,b.c_str()); //string 對象不能自動轉化為c字符串。需要利用成員函數c_str();

//轉化: 字符串->數字
int atoi(const char *nptr);  
double atof(const char *nptr); 
long atol(const char *nptr);

字符串函數:
串長度: int strlen(char *str)
串拷貝: char *strcpy(char *targetStr,char *orignalStr);
串連接: char *strcat(char *str1,char *str2)
串比較: int strcmp(char *str1,char *str2) //比較的是字符的ASCII碼, str1>str2 返回1，相等為0
串定位: char *strchr(char *str,char ch) //找到返回字符在字符串中的位置，否則返回-1；

4. CString 類是Visual C++中最常用的字符串類，繼承自CSimpleStringT類，主要應用在MFC和ATL編程中

聲明:

CString str;

在操作字符串 CString類之前，先了解Windows字符的類型.
    ┌──────────────────────────────┐
       類型             MBCS 中含義               Unicode 中含義
       TCHAR            char                          wchar_t
       WCHAR         wchar_t                     wchar_t
       LPSTR             char*                           char*
       LPCSTR       const char*           const char*
       LPWSTR        wchar_t*                   wchar_t*
       LPCWSTR    const wchar_t*       const wchar_t*
       LPTSTR          TCHAR*                   TCHAR*
       LPCTSTR      const TCHAR*        const TCHAR*
       char         標准c的字符類型(1Byte)
       wchar_t   保存UNICODE字符集的類型(2Byte)
    └──────────────────────────────┘

TCHAR的定義如下:

#ifdef UNICODE
typedef wchar_t TCHAR;
#else
typedef char TCHAR;
#endif

再了解一個宏_T(),使用宏_T(),使代碼有了unicode的意識。

#ifdef UNICODE
#define _T(x) L##x
#else
#define _T(x) x
#endif

##是一個預處理操作符，它可以把兩個參數連在一起.

TCHAR str[] = _T("I love c++.");

操作:

//初始化.
//法1)直接初始化:
CString str="Hello World!";

//法2)通過構造函數初始化化:
CString str("aaaaaaaaaa");
CString str('a',10);  //長度為10的“aaaaaaaaaa"字符串.

//法3)通過加載字符串資源：
CString str;
str.LoadString(IDS_STR);

//法4)使用CString類的成員函數Format進行初始化:
CString str; 
int total=100; 
str.Format(_T("The total is %d"), total);

//轉化:  char* -> CString
char *p1="This is a string in 8-bit only.";
TCHAR *p2=_T("This is a string with unicode-aware.");
LPTSTR p=_T("This is a string with unicode-aware.");   //等價於上句.
CString s1=p1;
CString s2(p2);
CString s3(p3);

//轉化:  CString -> char*
//法1)使用LPCTSTR 操作符.
CString s("Hello World!");
LPCTSTR p=s;  //LPCTSTR 操作符（或者更明確地說就是const TCHAR * 操作符）在 CString 類中被重載了，該操作符的定義是返回緩沖區的地址(指向 CString 的 字符串指針).

//法2)使用 CString 對象的 GetBuffer 方法
CString s(_T("Hello World!");
LPTSTR p=s.GetBuffer();
//s.ReleaseBuffer();
//delete p;

//法3)使用控件
CString str;
CListBox *pLB = (CListBox*)GetDlgItem(YOUR_LISTBOX_ID); // 獲取你的ListBox對象指針，
//YOUR_LISTBOX_ID為其資源標識
pLB->GetText(pLB->GetCurSel(), str); // 獲取當前選項字符串並存儲於str中

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 C++中字符串的常見操作 C++下面關於字符串數組的一些操作 [轉]C++字符串操作函數_tcschr、_tcsrchr 【C++】C++中的字符和字符串 c++字符串使用 C++切割字符串 C++字符串反轉合並字符串（c++） c++ 字符串去重 c++關於字符串的讀入和截取