【C#】寫文件時如何去掉編碼前綴


我們都知道,文件有不同的編碼,例如我們常用的中文編碼有:UTF8、GK2312 等。

Windows 操作系統中,新建的文件會在起始部分加入幾個字符的前綴,來識別編碼。

例如,新建文本文件,寫入單詞 Hello,另存為 UTF8。Hello 占 5 個字節,但文本大小卻是 8 個字節。(win7 系統下還是這樣的,win10 已經去掉了編碼前綴,所以 win10 下文件大小依然是 5 個字節。看來微軟自己也改變了。)

我們用 StreamWriter 來生成文件。

using (StreamWriter sw = new StreamWriter("a.txt"))
{
    sw.Write("Hello");  // 5 字節
}

using (StreamWriter sw = new StreamWriter("b.txt", false, Encoding.UTF8))
{
    sw.Write("Hello");  // 8 字節
}

詭異的事情發生了,StreamWriter 的默認編碼是 UTF8,都是用的 UTF8 編碼,怎么文件的大小會不一樣呢?

UTF8Encoding 有兩個私有屬性:emitUTF8IdentifierisThrowException,初始化時由構造函數傳入。

  • emitUTF8Identifier 表示是否添加編碼前綴
  • isThrowException 表示遇到編碼錯誤時是否報錯

由此可見,是否添加編碼前綴,是可以控制的。

EncodingUTF8 定義如下,添加編碼前綴。

public static Encoding UTF8 {
    get {
        if (utf8Encoding == null) utf8Encoding = new UTF8Encoding(true);
        return utf8Encoding;
    }
}

StreamWriter 中使用的默認編碼,emitUTF8Identifier=false

internal static Encoding UTF8NoBOM {
    get { 
        if (_UTF8NoBOM == null) {
            UTF8Encoding noBOM = new UTF8Encoding(false, true);
            _UTF8NoBOM = noBOM;
        }
        return _UTF8NoBOM;
    }
}

這就是開頭的代碼中兩個文件大小不一樣的原因了。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM