【改】utf-8 的去掉BOM的方法


最近在測試中發現,linux系統中導出的文件,有記事本打開另存為或者保存后,再次導入進linux系統,發現失敗了,對比文件內容,沒發現區別,打開二進制文件對比發現,文件頭部多了三個字符:EF BB BF。

通過網絡查找答案知,windows記事本等采用utf8 BOM格式,而Linux下采用UTF-8無BOM格式,上述三個字符即BOM。

去掉BOM方法:

1. # cat INFILE | sed 's/\xef\xbb\xbf//g' > OUTFILE    ;     sed -i 's/^\xEF\xBB\xBF//g' test.txt  //直接修改

2. # awk '{if(NR==1)sub(/^\xef\xbb\xbf/,"");print}' INFILE > OUTFILE

3.# tail --bytes=+4 INFILE > OUTFILE  ##沒有判斷標示


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM