通過編寫串口助手工具學習MFC過程——（三）Unicode字符集的寬字符和多字節字符轉換

本文轉載自查看原文 2017-06-29 17:47 1136 MFC

通過編寫串口助手工具學習MFC過程

因為以前也做過幾次MFC的編程，每次都是項目完成時，MFC基本操作清楚了，但是過好長時間不再接觸MFC的項目，再次做MFC的項目時，又要從頭開始熟悉。這次通過做一個串口助手再次熟悉一下MFC，並做了一下記錄，以便方便以后查閱。做的過程中多是遇到問題直接百度和谷歌搜索來的，所以很多都是不求甚解，知其然不知其所以然。另外做此工具只是為了熟悉了解，許多功能還沒有完善！（開發工具VS2008）

（三）Unicode字符集的寬字符和多字節字符轉換

在上一節《(二)通過“打開串口”按鈕了解基本操作》中提到了寬字符和多字節字符轉換的方法，這節就簡單的說明一下：

在Visual C++.NET2005中，默認的字符集形式是Unicode，但在VC6.0等工程中，默認的字符集形式是多字節字符集（MBCS：Multi-Byte Character Set），這樣導致在VC6.0中非常簡單實用的各類字符操作和函數在VS2005環境下運行時會報各種各樣的錯誤，這里總結了在Visual C++.NET2005環境中Unicode字符集下CString和char *之間相互轉換的幾種方法，其實也就是Unicode字符集與MBCS字符集轉換。

1、Unicode下CString、WCHAR *轉換為char *

方法一：使用API：WideCharToMultiByte進行轉換

CString str = _T("D://校內項目//QQ.bmp");

//注意：以下n和len的值大小不同,n是按字符計算的，len是按字節計算的
int n = str.GetLength(); // n = 14, len = 18

//獲取寬字節字符的大小，大小是按字節計算的
int len = WideCharToMultiByte(CP_ACP,0,str,str.GetLength(),NULL,0,NULL,NULL);

//為多字節字符數組申請空間，數組大小為按字節計算的寬字節字節大小
char * pFileName = new char[len+1]; //以字節為單位

//寬字節編碼轉換成多字節編碼
WideCharToMultiByte(CP_ACP,0,str,str.GetLength(),pFileName,len,NULL,NULL);

pFileName[len+1] = '/0'; //多字節字符以'/0'結束

方法二：使用函數：T2A、W2A

CString str = _T("D://校內項目//QQ.bmp");

//聲明標識符
USES_CONVERSION;

//調用函數，T2A和W2A均支持ATL和MFC中的字符轉換
char * pFileName = T2A(str);
//char * pFileName = W2A(str); //也可實現轉換

注意：有時候可能還需要添加引用#include <afxpriv.h>

2、Unicode下char *轉換為CString、WCHAR *

方法一：使用API：MultiByteToWideChar進行轉換

char * pFileName = "D://校內項目//QQ.bmp";

//計算char *數組大小，以字節為單位，一個漢字占兩個字節
int charLen = strlen(pFileName);

//計算多字節字符的大小，按字符計算。
int len = MultiByteToWideChar(CP_ACP,0,pFileName,charLen,NULL,0);

//為寬字節字符數組申請空間，數組大小為按字節計算的多字節字符大小
TCHAR *buf = new TCHAR[len + 1];

//多字節編碼轉換成寬字節編碼
MultiByteToWideChar(CP_ACP,0,pFileName,charLen,buf,len);

buf[len] = '/0'; //添加字符串結尾，注意不是len+1
//將TCHAR數組轉換為CString
CString pWideChar;
pWideChar.Append(buf);

//刪除緩沖區
delete []buf;

方法二：使用函數：A2T、A2W

char * pFileName = "D://校內項目//QQ.bmp";

USES_CONVERSION;
CString s = A2T(pFileName);

//CString s = A2W(pFileName);

////

WCHAR * bt = A2T(pFileName);

這里的bt指針變量由A2T函數自動返回會修改他的初始值。

方法三：使用_T宏，將字符串轉換為寬字符

//多字節字符集，在vc6和vc7種可以編譯通過的語句,但VS2005不能通過，默認為Unicode字符集
//AfxMessageBox("加載數據失敗",0);

//書寫代碼使用TEXT("")或_T("")，文本在UNICODE和非UNICODE程序里都通用
AfxMessageBox(_T("加載數據失敗"),0);

注意：直接轉換在基於MBCS的工程可以，但在基於Unicode字符集的工程中直接轉換是不可行的，CString會以Unicode的形式來保存數據，強制類型轉換只會返回第一個字符。

引自： http://blog.csdn.net/neverup_/article/details/5664733

注意：

A2T()、A2W() 對char型數組轉成 WCHAR型數組時轉換幾個后會出錯！！！原因不明。

MultiByteToWideChar()函數效果和A2T()、A2W()執行的效果是一樣的。Char型數組轉WCHAR數組時，采用按各元素直接賦值的方式。

MultiByteToWideChar()和WideCharToMultiByte()函數與A2T()和T2A()函數測試功能效果相同，但前者使用起來更為復雜，相比后者使用簡單。

下面的《MultiByteToWideChar和WideCharToMultiByte的正確使用方法及參數詳解》引自：http://www.cnblogs.com/ziwuge/archive/2011/11/05/2236968.html

上面說的對這兩個函數測試也是使用的這篇文章的方法，為了防止博主將博文刪除，直接復制下來，作為以后參考。

MultiByteToWideChar和WideCharToMultiByte的正確使用方法及參數詳解

　　本文內容摘自《Windows核心編程》(第五版)Page26。

　　文中已經詳細闡述了這兩個函數的用法，我這里僅僅作為備忘錄。函數的參數請參考百度百科MultiByteToWideChar和WideCharToMultiByte。

函數原型：

int MultiByteToWideChar(
UINT CodePage,
DWORD dwFlags,
LPCSTR lpMultiByteStr,
int cchMultiByte,
LPWSTR lpWideCharStr,
int cchWideChar
);
int WideCharToMultiByte(
UINT CodePage,
DWORD dwFlags,
LPWSTR lpWideCharStr,
int cchWideChar,
LPCSTR lpMultiByteStr,
int cchMultiByte,
LPCSTR lpDefaultChar,
PBOOL pfUsedDefaultChar
);

在考慮安全使用的情況下，使用的一般步驟如下：
MultiByteToWideChar：
1)調用MultiByteToWideChar，為lpWideCharStr參數傳入NULL，為cchWideChar參數傳入0，為cchMultiByte參數傳入-1；
2)分配一塊足夠容納轉換后Unicode字符串的內存，它的大小是上一個MultiByteToWideChar調用的返回值乘以sizeof(wchar_t)；
3)再次調用MultiByteToWideChar，這一次將緩沖區地址作為lpWideCharStr參數的值傳入，將第一次MultiByteToWideChar調用的返回值乘以sizeof(wchar_t) 后得到的大小的作為cchWideChar參數的值傳入；
4)使用轉換后的字符串；
5)釋放Unicode字符串占用的內存塊。

WideCharToMultiByte：
　　采取的步驟和前面的相似，唯一不同的是，返回值直接就是確保轉換成功所需的字節數，所以無需執行乘法運算。

　　在《Windows核心編程》中第二章(字符和字符串處理)提到很多字符和字符串的規范處理方法，如字符串函數的問題，到底是使用C庫的呢，還是使用MS自己實現帶_s后綴的。

【附】《Windows核心編程》第二章pdf下載：http://dl.dbank.com/c0parcjxsv

MultiByteToWideChar的與WideCharToMultiByte的參數詳解
　　下面部分摘自:http://www.cnblogs.com/wanghao111/archive/2009/05/25/1489021.html#2270293

WideCharToMultiByte 此函數把寬字符串轉換成指定的新的字符串，如ANSI，UTF8等，新字符串不必是多字節字符集。
參數:

CodePage：指定要轉換成的字符集代碼頁，它可以是任何已經安裝的或系統自帶的字符集，你也可以使用如下所示代碼頁之一。
     CP_ACP 當前系統ANSI代碼頁
     CP_MACCP 當前系統Macintosh代碼頁
     CP_OEMCP 當前系統OEM代碼頁，一種原始設備制造商硬件掃描碼
     CP_SYMBOL Symbol代碼頁，用於Windows 2000及以后版本，我不明白是什么
     CP_THREAD_ACP 當前線程ANSI代碼頁，用於Windows 2000及以后版本，我不明白是什么
     CP_UTF7 UTF-7，設置此值時lpDefaultChar和lpUsedDefaultChar都必須為NULL
     CP_UTF8 UTF-8，設置此值時lpDefaultChar和lpUsedDefaultChar都必須為NULL
/*　我想最常用的應該是CP_ACP和CP_UTF8了，前者將寬字符轉換為ANSI，后者轉換為UTF8。 */

dwFlags：指定如何處理沒有轉換的字符，但不設此參數函數會運行的更快一些，我都是把它設為0。可設的值如下表所示：
     WC_NO_BEST_FIT_CHARS 把不能直接轉換成相應多字節字符的Unicode字符轉換成lpDefaultChar指定的默認字符。也就是說，如果把Unicode轉換成多字節字符，然后再轉換回來，你並不一定得到相同的Unicode字符，因為這期間可能使用了默認字符。此選項可以單獨使用，也可以和其他選項一起使用。
     WC_COMPOSITECHECK 把合成字符轉換成預制的字符。它可以與后三個選項中的任何一個組合使用，如果沒有與他們中的任何一個組合，則與選項WC_SEPCHARS相同。
     WC_ERR_INVALID_CHARS 此選項會致使函數遇到無效字符時失敗返回，並且GetLastError會返回錯誤碼ERROR_NO_UNICODE_TRANSLATION。否則函數會自動丟棄非法字符。此選項只能用於UTF8。
     WC_DISCARDNS 轉換時丟棄不占空間的字符，與WC_COMPOSITECHECK一起使用
     WC_SEPCHARS 轉換時產生單獨的字符，此是默認轉換選項，與WC_COMPOSITECHECK一起使用
     WC_DEFAULTCHAR 轉換時使用默認字符代替例外的字符，(最常見的如’?’)，與WC_COMPOSITECHECK一起使用。
/* 當指定WC_COMPOSITECHECK時，函數會將合成字符轉換成預制字符。合成字符由一個基字符和一個不占空間的字符(如歐洲國家及漢語拼音的音標)組成，每一個都有不同的字符值。預制字符有一個用於表示基字符和不占空間字符的合成體的單一的字符值。當指定WC_COMPOSITECHECK選項時，也可以使用上表列出的最后3個選項來定制預制字符的轉換規則。這些選項決定了函數在遇到寬字符串的合成字符沒有對應的預制字符時的行為，他們與WC_COMPOSITECHECK一起使用，如果都沒有指定，函數默認WC_SEPCHARS。對於下列代碼頁，dwFlags必須為0，否則函數返回錯誤碼ERROR_INVALID_FLAGS。 50220 50221 50222 50225 50227 50229 52936 54936 57002到57011 65000(UTF7) 42(Symbol)
對於UTF8，dwFlags必須為0或WC_ERR_INVALID_CHARS，否則函數都將失敗返回並設置錯誤碼ERROR_INVALID_FLAGS，你可以調用GetLastError獲得。 */

lpWideCharStr：待轉換的寬字符串。
cchWideChar：待轉換寬字符串的長度，-1表示轉換到字符串結尾。
lpMultiByteStr：接收轉換后輸出新串的緩沖區。
cbMultiByte：輸出緩沖區大小，如果為0，lpMultiByteStr將被忽略，函數將返回所需緩沖區大小而不使用lpMultiByteStr。
lpDefaultChar：指向字符的指針，在指定編碼里找不到相應字符時使用此字符作為默認字符代替。如果為NULL則使用系統默認字符。對於要求此參數為NULL的dwFlags而使用此參數，函數將失敗返回並設置錯誤碼ERROR_INVALID_PARAMETER。
lpUsedDefaultChar：開關變量的指針，用以表明是否使用過默認字符。對於要求此參數為NULL的dwFlags而使用此參數，函數將失敗返回並設置錯誤碼ERROR_INVALID_PARAMETER。lpDefaultChar和lpUsedDefaultChar都設為NULL，函數會更快一些。
/* 注意：函數WideCharToMultiByte使用不當，會給影響程序的安全。調用此函數會很容易導致內存泄漏，因為lpWideCharStr指向的輸入緩沖區大小是寬字符數，而lpMultiByteStr指向的輸出緩沖區大小是字節數。為了避免內存泄漏，應確保為輸出緩沖區指定合適的大小。我的方法是先使cbMultiByte為0調用WideCharToMultiByte一次以獲得所需緩沖區大小，為緩沖區分配空間，然后再次調用WideCharToMultiByte填充緩沖區，詳見下面的代碼。另外，從Unicode UTF16向非Unicode字符集轉換可能會導致數據丟失，因為該字符集可能無法找到表示特定Unicode數據的字符。 */

返回值:如果函數成功，且cbMultiByte非0，返回寫入lpMultiByteStr的字節數(包括字符串結尾的null)；cbMultiByte為0，則返回轉換所需字節數。函數失敗，返回0。

MultiByteToWideChar 是多字節字符到寬字符轉換函數。
　　此函數把多字節字符串轉換成寬字符串(Unicode)，待轉換的字符串並不一定是多字節的。
　　此函數的參數，返回值及注意事項參見上面函數WideCharToMultiByte的說明，這里只對dwFlags做簡單解釋。

dwFlags：指定是否轉換成預制字符或合成的寬字符，對控制字符是否使用像形文字，以及怎樣處理無效字符。
MB_PRECOMPOSED 總是使用預制字符，即有單個預制字符時，就不會使用分解的基字符和不占空間字符。此為函數的默認選項，不能和MB_COMPOSITE合用
MB_COMPOSITE 總是使用分解字符，即總是使用基字符+不占空間字符的方式
MB_ERR_INVALID_CHARS 設置此選項，函數遇到非法字符就失敗並返回錯誤碼ERROR_NO_UNICODE_TRANSLATION，否則丟棄非法字符
MB_USEGLYPHCHARS 使用像形字符代替控制字符
/*　　對於下列代碼頁，dwFlags必須為0，否則函數返回錯誤碼ERROR_INVALID_FLAGS。50220 50221 50222 50225 50227 50229 52936 54936 57002到57011 65000(UTF7) 42(Symbol)。對於UTF8，dwFlags必須為0或MB_ERR_INVALID_CHARS，否則函數都將失敗並返回錯誤碼ERROR_INVALID_FLAGS */

　　另外補充一個例子，供大家參考，運行環境(vc 6.0, 32位盜版win7旗艦版)

#include <windows.h>
int APIENTRY WinMain(HINSTANCE hInstance,
                     HINSTANCE hPrevInstance,
                     LPSTR     lpCmdLine,
int       nCmdShow)
{
// TODO: Place code here.
    wchar_t wszTest[] = L"ziwuge";
    wchar_t wszTestNew[] = L"ziwuge博客園";
int nwszTestLen = lstrlenW(wszTest);            // 6
int nwszTestNewLen = lstrlenW(wszTestNew);        // 9
int nwszTestSize = sizeof(wszTest);                // 14
int nwszTestNewSize = sizeof(wszTestNew);        //    20
int nChar = WideCharToMultiByte(CP_ACP, 0, wszTestNew, -1, NULL, 0, NULL, NULL);    // 13, 返回結果已包含'\0'所要占用的內存
    nChar = nChar * sizeof(char);                    // 13, 其實這一步可不需要,請見本文前面解釋
char* szResult = new char[nChar];
    ZeroMemory(szResult, nChar);
int i = WideCharToMultiByte(CP_ACP, 0, wszTestNew, -1, szResult, nChar, NULL, NULL);    // 13
int nszResultLen = lstrlenA(szResult);            // 12
int nszResultSize = sizeof(szResult);            // 4
char szTest[] = "ziwuge";
char szTestNew[] = "ziwuge博客園";
int nszTestLen = lstrlenA(szTest);                // 6
int nszTestNewLen = lstrlenA(szTestNew);        // 12
int nszTestSize = sizeof(szTest);                // 7
int nszTestNewSize = sizeof(szTestNew);            // 13
int nWChar = MultiByteToWideChar(CP_ACP, 0, szTestNew, -1, NULL, 0);        // 10, 返回結果已包含'\0'所要占用的內存
    nWChar = nWChar * sizeof(wchar_t);                // 20
    wchar_t* wszResult = new wchar_t[nWChar];
    ZeroMemory(wszResult, nWChar);
int j = MultiByteToWideChar(CP_ACP, 0, szTestNew, -1, wszResult, nWChar);    // 10
int nwszResultLen = lstrlenW(wszResult);        // 9
int nwszResultSize = sizeof(wszResult);            // 4
return 0;
}

【參考資料感謝作者】

http://www.cnblogs.com/wanghao111/tag/%E5%AE%BD%E5%AD%97%E7%AC%A6%E5%BA%93%E5%87%BD%E6%95%B0/

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 多字節字符集與Unicode字符集 MFC unicode字符集與多字節字符集問題之徹底終結！ VC++中多字節字符集和Unicode之間的互換通過編寫串口助手工具學習MFC過程——（二）通過“打開串口”按鈕了解基本操作通過編寫串口助手工具學習MFC過程——（九）自動識別串口的方法轉--- 寬字節與單字節的轉換 Unicode字符集下CString與char *轉換 C語言中的多字節字符與寬字符寬字符、多字節、unicode、utf-8、gbk編碼轉化通過編寫串口助手工具學習MFC過程——（四）添加ComboBox組合框通過編寫串口助手工具學習MFC過程——（五）添加CheckBox復選框