python 讀取帶BOM的utf-8格式文件

本文轉載自查看原文 2020-05-12 08:05 905

UTF有哪些分類？
**

UTF-8分為兩種，一種是不帶BOM的，一種是帶BOM的。其中第一種不帶BOM的是標准形式，第二種帶BOM的主要是微軟的習慣。

為什么有BOM的UTF-8？
**
微軟在UTF-8中使用BOM（Byte order mark）是因為這樣可以將UTF-8和ASCII等編碼明確區分開。
windows對於utf-8格式的文件存儲默認是帶有BOM的格式

為什么BOM不受歡迎？
**
因為在UNIX環境下，很多的UNIX程序不認識BOM。主要是在UNIX所有腳本語言首行為#！標示，它依賴於shell解析，而很多shell出於兼容的考慮不檢測BOM，所以加進BOM時shell會把它解釋為某個普通字符輸入導致破壞#！標示。比如很多現代腳本語言，例如python，其解釋器本身是能處理BOM的，但是shell卡在這里。
因此我們在linux服務器上讀取這些txt文件時，會遇到如下報錯：
\xef\xbb\xbf…

怎么解決？
**
使用codecs庫，將文件轉換為utf-8-sig格式

import codecs

with open("xx.txt",'r','utf-8-sig') as file:
line = file.readlines();
————————————————
版權聲明：本文為CSDN博主「櫻夕夕」的原創文章，遵循CC 4.0 BY-SA版權協議，轉載請附上原文出處鏈接及本聲明。
原文鏈接：https://blog.csdn.net/qq_21460525/java/article/details/66971225

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 python 讀取帶BOM的utf-8格式文件 UTF-8 BOM編碼格式文件對SSI的影響 windows cmd窗口，輸出UTF-8格式文件，顯示亂碼 python修改文件編碼為utf-8格式 Java讀取UTF-8格式txt文件第一行出現亂碼——問號“?”及解決;Java讀帶有BOM的UTF-8文件亂碼原因及解決方法 Android 讀取txt文件並以utf-8格式轉換成字符串 Python:將utf-8格式的文件轉換成gbk格式的文件讓TinyXML保存文件為UTF-8格式 linux文件轉換成utf-8格式 IDEA - 設置所有文件編碼為UTF-8格式