linux下編碼轉換


1.什么是編碼?

關於編碼的定義,我們可以查看百度全科http://baike.baidu.com/view/237708.htm

還可以參考:http://www.cnblogs.com/cocowool/archive/2009/04/25/1443529.html

2.linux下經常遇到的編碼問題

如果你需要在Linux中操作windows下的文件,那么你可能會經常遇到文件編碼轉換的問題。Windows中默認的文
件格式是GBK(gb2312),而Linux一般都是UTF-8

3.查看編碼的方法

方法一:file filename

方法二:在Vim中可以直接查看文件編碼

  :set fileencoding

即可顯示文件編碼格式。

如果你只是想查看其它編碼格式的文件或者想解決用Vim查看文件亂碼的問題,那么你可以在
  ~/.vimrc 文件中添加以下內容:
  set encoding=utf-8 fileencodings=ucs-bom,utf-8,cp936
  這樣,就可以讓vim自動識別文件編碼(可以自動識別UTF-8或者GBK編碼的文件),其實就是依照
fileencodings提供的編碼列表嘗試,如果沒有找到合適的編碼,就用latin-1ASCII)編碼打開。

4.文件編碼轉換

多平台方法:
iconv        提供標准的程序和API來進行編碼轉換;
convert_encoding.py    基於Python的文本文件轉換工具;
decodeh.py    提供算法和模塊來談測字符的編碼;

Linux:
recode    轉換文件編碼;
Utrac    轉換文件編碼;
cstocs    轉換文件編碼;
convmv    轉換文件名編碼;
enca    分析給定文件的編碼;

Windows:
cscvt    字符集轉換工具;

linux下文件編碼轉換:

方法一:

在Vim中直接進行轉換文件編碼,比如將一個文件轉換成utf-8格式
  :set fileencoding=utf-8

方法二:

iconv 轉換

5.案例:

假如說我們將windows下的一個UTF-8的文件傳到linux環境下,linux環境下的系統編碼是GB18030,我們cat的時候就會出現亂碼,這個時候就應該想到轉碼了,下面我們來進行試驗:

我們將windows下一個名為UTF-8.sh的文件傳到linux系統中,其中UTF-8.sh的內容如下:

我是中文編碼UTF-8模式~

而linux系統的系統語言設置為:

[root@sor-sys zy]# cat /etc/sysconfig/i18n 
LANG=zh_CN.GB18030

SYSFONT="latarcyrheb-sun16"
這個時候查看一下文件的內容及編碼:

[root@sor-sys zy]# file UTF-8.sh 
UTF-8.sh: UTF-8 Unicode text, with no line terminators
[root@sor-sys zy]# cat UTF-8.sh 
鍩挎垜鏄腑鏂囩紪鐮乁TF-8妯″紡~[root@sor-sys zy]# 
[root@sor-sys zy]# 

這個時候我們就需要轉換編碼了,記得使用iconv

[root@sor-sys zy]# iconv -f UTF-8 -t GB18030 UTF-8.sh -o GB18030.sh
[root@sor-sys zy]# cat GB18030.sh
??我是中文編碼UTF-8模式~[root@sor-sys zy]# 
[root@sor-sys zy]# file GB18030.sh 
GB18030.sh: Non-ISO extended-ASCII text, with no line terminators
[root@sor-sys zy]# 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM