XML編碼utf-8有中文無法解析或亂碼 C#

本文轉載自查看原文 2016-07-18 11:21 10650 C#/ 中文/ 編碼/ utf-8/ XML/ utf8/ 亂碼/ C#開發/ 解析

XML的encoding="UTF-8" ，含有中文的話（部分）會出現亂碼。

網上還是很多這類問題跟解決辦法的。

表現為用ie或者infopath之類的xml軟件打不開這個xml，txt打開有時正常有時亂碼。

當然C#也是無法解析的。

但是用ultraedit打開正常顯示，用ultraedit保存為utf8后xml就一切正常了。

查詢發現是bom的原因。

什么是BOM呢？

BOM：Byte Order Mark，中文名字節順序標記。UCS規范建議在傳輸字節流前，先傳輸BOM來判斷字節順序。其實UTF-8是不需要用BOM來表明字節順序的，但是可以用BOM來表明編碼方式。BOM的UTF-8編碼是EF BB BF，所以呢，如果接受者收到EF BB BF開頭的字節流，就說明它是UTF-8編碼了。

由此可見，對於UTF-8來說，BOM是可有可無的，可是，有的XML解析方式不認這個BOM，所以就報錯了。

解決辦法如下，強制把xml文本保存為utf8格式就好了

                                XmlDocument doc = new XmlDocument();
                                
                                string xmlString = ReadContext(tmpDir + "\\" + xml);

                                try
                                {
                                    doc.LoadXml(xmlString);
                                }
                                catch (Exception e)
                                {
                                    log.ErrorFormat(string.Format("Xml無法解析，名稱：{1}, 格式錯誤，錯誤原因：{0}", e.Message, xml));
                                    continue;
                                }


ReadContext函數是把xml里的內容作為文本讀出來，注意編碼很重要，不能用default

System.Text.Encoding.UTF8

private static string ReadContext(string path)
        {
            FileStream fs = new FileStream(path, FileMode.Open);
            StreamReader sr = new StreamReader(fs,System.Text.Encoding.UTF8); 

            string context = sr.ReadToEnd(); 
　　　　　　　fs.Close(); 
　　　　　　　sr.Close(); 
　　　　　　　sr.Dispose(); 
　　　　　　　fs.Dispose(); 

　　　　　　　return context; 
　　　　　}

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 C#將中文轉換成UTF-8編碼 MySQL對JSON類型UTF-8編碼導致中文亂碼探討關於C#中，URL中UTF-8編碼和解碼 Tomcat 中文亂碼設置UTF-8編碼問題解決辦法 Spring 配置請求過濾器，編碼格式設為UTF-8，避免中文亂碼編碼(ACSII unicod UTF-8)、QT輸出中文亂碼深入分析 CSV中文亂碼(utf-8)的解決 HTML5 UTF-8 中文亂碼 spring get方法中文(UTF-8)亂碼 MySQL中文編碼設置為utf-8