Unicode編碼Linux下的轉換

本文轉載自查看原文 2012-10-11 16:24 6709 計算機基礎知識

最近得到一份Unicode編碼的文件，想轉換成utf-8(其實就是想轉成非Unicode）。

在網上找了很多文章，有很多人把utf-8理解為unicode，搞得亂哄哄的。請記住，下面的段落是講如何把 Unicode 編碼的文件轉化為非Unicode的方式。

在linux下用iconv命令，

iconv -f ucs-2 -t utf-8 myfile > destfile

搞了半天，發現，Unicode編碼（簡稱為ucs）其實分為

ucs-2be 和ucs-2se 一個是大端法(big-endian)，一個是小端法(little-endian)，也就是一個碼子（2byte）的字節序列不同。windows下是小端法,Linux平台下是大端法.

因此，需要明確指出是那種ucs編碼。（比較奇怪的是，這個文件是linux平台產生的，我運行iconv的也是在linux平台，為什么ucs-2不是默認的ucs-2be呢）

iconv -f ucs-2be -t utf-8 myfile > destfile

就好了。

多說一點：

（1）

unicode有2-bytes和4-bytes兩種，稱為ucs-2和ucs-4.

比如a（ascii碼為 0x61)，采用usc-2編碼,編碼成16進制數是 0x0061

小端法(ucs-2le)，字節流是 61 00

大端法(ucs-2be)，字節流是 00 61

一個只有alphabetic字符的Unicode編碼文件，打開后，如果是 00XX 00XX 那么就是大端法（這個從我的文件里也驗證了）。

（2） utc-xxxx系列編碼和unicode

為什么會出現utf-xxx系列呢，utf的意思是 unicode transform format 也就是為了傳輸unicode而定義的一種編碼。不管怎么說，它定義了一種編碼方式。一個字符，在utf-xxxx和unicode中有不同的編碼方式。同時，可以吧unicode理解為一種解決語言的解決方案，規定了一套映射關系。為了便於使用有定義了utf-xxx系列，utf-xxxx和unicode編碼相同的集合，碼字不同。

為什么需要unicode的傳輸模式呢：unicode中的00有可能是正常編碼，而非字符串結束標志。很多Linux下的程序，都不支持讀unicode（雙字節），而是支持multibyte(多字節）編碼，那么，00就會被認為是字符串結尾了。

更詳細的說明，參見

http://www.cl.cam.ac.uk/~mgk25/unicode.html#history 中的 What is UTF-8?

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 linux下編碼轉換在UNICODE編碼格式下， CString 轉換為 char* ： linux下查看文件編碼以及編碼轉換 python-unicode編碼轉換 unicode 編碼在線轉換--javascript Linux下gbk/utf8編碼轉換 Linux的編碼及編碼轉換 linux下如何查看文件編碼格式及轉換文件編碼 python unicode和string byte, unicode轉中文及轉換默認編碼 PHP Unicode編碼相互轉換