python基礎:字符編碼問題三個不可見的字符(0xEF 0xBB 0xBF,即BOM)


一、用utf-8格式保存的txt文件等,如何去掉BOM頭

Windows系統的txt文件在使用utf-8編碼保存時會默認在文件開頭插入三個不可見的字符(0xEF 0xBB 0xBF)稱為BOM頭,這個BOM頭在python的codecs庫中已經定義為常量(codecs.BOM_UTF8)

方法一:utf8temp.txt保存時選擇utf-8保存

1 import codecs
2 data=open("utf8temp.txt",'r',encoding='utf-8').read()
3 data=data.encode(encoding='utf-8')
4 print(data)
5 #print("中文".encode(encoding='utf-8'))
6 print(len(data))
7 if data[:3]==codecs.BOM_UTF8:
8     data=data[3:]
9     print(data.decode(encoding='utf-8'))

輸出如下:

b'\xef\xbb\xbf\xe4\xb8\xad\xe6\x96\x87'
9
中文

 

方法二:

1 with open("./temp.txt","r",encoding='utf-8') as f:
2     flag=1
3     for line in f:
4         if flag==1:
5              line=line[1:]#去掉txt格式為utf-8會在文件第一行開頭插入
6                           # 三個不可見的字符(0xEF 0xBB 0xBF)--(‘.’)                       
7              flag=0
8         print(line)

 

 

方法三:直接用第三方軟件去掉BOM頭,用notepad++打開txt文件,選擇編碼...without BOM,點擊保存

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM