XML編碼utf-8有中文無法解析或亂碼 C#


 

XML的encoding="UTF-8" ,含有中文的話(部分)會出現亂碼。

 

網上還是很多這類問題跟解決辦法的。

 

表現為用ie或者infopath之類的xml軟件打不開這個xml,txt打開有時正常有時亂碼。

 

 

 

當然C#也是無法解析的。

 

但是用ultraedit打開正常顯示,用ultraedit保存為utf8后xml就一切正常了。

 

查詢發現是bom的原因。

 

什么是BOM呢?

BOM:Byte Order Mark,中文名字節順序標記。UCS規范建議在傳輸字節流前,先傳輸BOM來判斷字節順序。其實UTF-8是不需要用BOM來表明字節順序的,但是可以用BOM來表明編碼方式。BOM的UTF-8編碼是EF BB BF,所以呢,如果接受者收到EF BB BF開頭的字節流,就說明它是UTF-8編碼了。

由此可見,對於UTF-8來說,BOM是可有可無的,可是,有的XML解析方式不認這個BOM,所以就報錯了。

 

解決辦法如下,強制把xml文本保存為utf8格式就好了

 

                                XmlDocument doc = new XmlDocument();
                                
                                string xmlString = ReadContext(tmpDir + "\\" + xml);

                                try
                                {
                                    doc.LoadXml(xmlString);
                                }
                                catch (Exception e)
                                {
                                    log.ErrorFormat(string.Format("Xml無法解析,名稱:{1}, 格式錯誤,錯誤原因:{0}", e.Message, xml));
                                    continue;
                                }

ReadContext函數是把xml里的內容作為文本讀出來,注意編碼很重要,不能用default
System.Text.Encoding.UTF8
private static string ReadContext(string path)
        {
            FileStream fs = new FileStream(path, FileMode.Open);
            StreamReader sr = new StreamReader(fs,System.Text.Encoding.UTF8); 

string context = sr.ReadToEnd();
       fs.Close();
       sr.Close();
       sr.Dispose();
       fs.Dispose();

       return context;
     }

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM