最近得到一份Unicode編碼的文件,想轉換成utf-8(其實就是想轉成非Unicode)。
在網上找了很多文章,有很多人把utf-8理解為unicode,搞得亂哄哄的。請記住,下面的段落是講如何把 Unicode 編碼的文件 轉化為 非Unicode的方式。
在linux下用iconv命令,
iconv -f ucs-2 -t utf-8 myfile > destfile
搞了半天,發現,Unicode編碼(簡稱為ucs)其實分為
ucs-2be 和ucs-2se 一個是大端法(big-endian),一個是小端法(little-endian),也就是一個碼子(2byte)的字節序列不同。windows下是小端法,Linux平台下是大端法.
因此,需要明確指出是那種ucs編碼。(比較奇怪的是,這個文件是linux平台產生的,我運行iconv的也是在linux平台,為什么ucs-2不是默認的ucs-2be呢)
iconv -f ucs-2be -t utf-8 myfile > destfile
就好了。
多說一點:
(1)
unicode有2-bytes和4-bytes兩種,稱為ucs-2和ucs-4.
比如a(ascii碼為 0x61),采用usc-2編碼,編碼成16進制數是 0x0061
小端法(ucs-2le),字節流是 61 00
大端法(ucs-2be),字節流是 00 61
一個只有alphabetic字符的Unicode編碼文件,打開后,如果是 00XX 00XX 那么就是大端法(這個從我的文件里也驗證了)。
(2) utc-xxxx系列編碼和unicode
為什么會出現utf-xxx系列呢,utf的意思是 unicode transform format 也就是為了傳輸unicode而定義的一種編碼。不管怎么說,它定義了一種編碼方式。一個字符,在utf-xxxx和unicode中有不同的編碼方式。同時,可以吧unicode理解為一種解決語言的解決方案,規定了一套映射關系。為了便於使用有定義了utf-xxx系列,utf-xxxx和unicode編碼相同的集合,碼字不同。
為什么需要unicode的傳輸模式呢:unicode中的00有可能是正常編碼,而非字符串結束標志。很多Linux下的程序,都不支持讀unicode(雙字節),而是支持multibyte(多字節)編碼,那么,00就會被認為是字符串結尾了。
更詳細的說明,參見
http://www.cl.cam.ac.uk/~mgk25/unicode.html#history 中的 What is UTF-8?
