Qt與MSVC中文亂碼問題的解決方案

本文轉載自查看原文 2020-04-30 13:20 694 Qt/ 中文/ qt/ 亂碼

參考網上方法，先把文件編碼改為待bom的utf-8，然后在cpp文件里加入

#ifdef Q_OS_WIN

    #pragma execution_character_set("utf-8")   //解決 VS編譯器下中文亂碼

#endif

具體見文末詳情。

在這種時候，如果用到 QString和char*互轉，可用如下方法：

 1 QString str = "324rwer中文";
 2 
 3     char* pCh = new char[50];
 4     memset(pCh, 0 , 50);
 5     //QString轉char*
 6     std::string stdStr = str.toStdString();
 7     memcpy(pCh, stdStr.c_str(), stdStr.length());
 8 
 9     //char* 轉 QString
10     QString strCh(pCh);
11     QString strch1 = QString::fromUtf8(pCh);
12     qDebug() << "pCh:" << pCh;
13     qDebug() << "str:" << str;
14     qDebug() << "strCh:" << strCh;
15     qDebug() << "strch1:" << strch1;

詳情如下：

轉自：https://blog.csdn.net/liuweilhy/article/details/82321105

在學習Qt編程的過程中，大多數人都遇到過中文亂碼的問題。總結起來有三類：

1. Qt Creator中顯示的漢字變為亂碼，編輯器上方有“Could not decode "..." with "UTF-8"-encoding. Editing not possible.”的錯誤提示。此時，出現亂碼的文檔是不可編輯的。如下圖所示，“你好中文！”這5個中文字符變成了亂碼：

2. Qt Creator中顯示的漢字正常，但編譯的時候會出現“常量中有換行符”等一系列錯誤報警。其實，這也是文字編碼的問題。如下圖所示：

3. 編譯時未報錯，但生成的程序中文亂碼。如下圖所示：

其中，第3條是網上提問的最多的，幾乎是所有使用MSVC的初學者都會碰到的問題。很多回答是針對Qt4版本的，Qt5中不可用。

二、為什么會出現這些問題？
在解決問題之前，字符編碼知識是必需的。你要知道ASCII、GB2312、GBK、Unicode、UTF-8、UTF-16、BOM是怎么回事。此外，你還要明白源碼字符集、執行字符集是什么。詳細內容可以在網上搜索一下，俯拾即是。

1. Qt Creator的編輯器默認使用UTF-8（代碼頁65001）編碼來讀取文本文件。而Visual Studio保存文件時默認采用的是本地編碼，對於簡體中文的Windows操作系統，這個編碼就是GB2312（代碼頁936）。如果使用Qt Creator讀取由Visual Studio創建的文件，那么編輯器就會以UTF-8編碼格式讀取GB2312編碼格式的文件，出現中文亂碼，因為這兩套編碼系統對漢字編碼是不同的。至於英文部分不會亂碼，是因為UTF-8和GB2312在單字節字符部分是兼容的。

2. MSVC在編譯時，會根據源代碼文件有無BOM來定義源碼字符集。如果有BOM，則按BOM解釋識別編碼；如果沒有，則使用本地字符集，對於簡體中文的Windows操作系統就是GB2312。那么，當MSVC遇到一個沒有BOM的UTF-8編碼的文件時，它通常會把文件看作GB2312的來處理。如果文件全是英文沒有問題，但如果包含中文，編譯器就會出現誤讀。這種情況下，Qt Creator編輯器是正常的。但對於MSVC編譯器，原代碼會被它認識成下圖這個樣子：

這是我用EverEdit指定本地編碼重讀后的結果，可以看到漢字出錯，末端的引號也沒了。

在UTF-8中，一個中文字符（漢字或標點符號）占用3個字節，“你好中文！”這5個中文字符共占用15個字節；而在GB2312中，一個中文字符（漢字或標點符號）占用2個字節，這時，MSVC把UTF-8編碼的15個字節加上后面1個字節的英文引號合成16個字節當作8個中文字符處理。之后，MSVC在這一行里直到末尾換行符出現都沒有找到下一個引號，它以為你把字符串在這里敲回車換行了，於是報警稱“常量中有換行符”，並引出一系列的錯誤。

不過，當以無BOM的UTF-8編碼的字符串正好湊夠偶數個字節時（比如偶數個漢字，或奇數個漢字加奇數個英文字母），編譯器通常不會報警，因為它以為用GB2312編碼讀出的是正確的。

3. 不管源文件是何種編碼，只要MSVC能夠正確識別，就可以通過編譯。但MSVC的執行字符集默認是本地字符集。對我們來說，它生成的可執行文件中的文字是GB2312編碼的。而生成的Qt程序以UTF-8編碼來識別GB2312編碼的文字，對於“你好中文！”這幾個字符，采用GB2312編碼后再以UFT-8編碼來讀取，就會變成如下的亂碼：