UTF-16是Unicode字符編碼五層次模型的第三層,字符編碼表(Character Encoding Form,)的一種實現方式。即把Unicode的字符集的抽象碼位
映射為16位長的整數(即碼元)的序列,用於數據存儲或傳遞。Unicode字符的碼位,需要1個或者2個16位長的碼元來表示,因此這是一個變長表示。
UTF-16比起UTF-8,好處在於大部分字符都以固定長度的字節 (2字節) 儲存,但UTF-16卻無法兼容於ASCII編碼。
Unicode(統一碼、萬國碼、單一碼)是計算機科學領域里的一項業界標准,包括字符集、編碼方案等。Unicode 是為了解決傳統的字符編碼方案的局限而產生的,它為每種語言中的每個字符設定了統一並且唯一的二進制編碼,以滿足跨語言、跨平台進行文本轉換、處理的要求。
GB2312是中國規定的漢字編碼,也可以說是簡體中文的字符集編碼;
GBK是GB2312的擴展,除了兼容GB2312外,它還能顯示繁體中文,還有日文的假名。
Unicode(統一碼、萬國碼、單一碼)是計算機科學領域里的一項業界標准,包括字符集、編碼方案等。Unicode 是為了解決傳統的字符編碼方案的局限而產生的,它為每種語言中的每個字符設定了統一並且唯一的二進制編碼,以滿足跨語言、跨平台進行文本轉換、處理的要求。
UTF-8和GBK的區別:
字符均使用雙字節來表示,只不過區分中文,將其最高位都定成1.
至於UTF-8編碼則是用以解決國際上字符的一種多字節編碼,它對英文使用8位(即一個字節),中文
使用24位(三個字節)來編碼。對於英文字符使用較多的論壇則用UTF-8節省空間。
GBK包括全部中文字符;UTF-8則包含全世界所有國家需要用到的字符。
UTF-8編碼的文字可以在各國各種支持UTF-8字符集的瀏覽器上顯示。
大家都使用過Word,Word在打開文本文件的時候,如果其檢測不是系統默認編碼,就會讓用戶選擇,並且推薦一種編碼給用戶(有時候不一定對,因為猜,就有幾率不對),讓用戶自己決定要用什么編碼顯示.
CSV文件:CSV(comma seperated value)即逗號分隔符,用記事本打開的話hi"a","b","c"這種格式,是文本文件。
好處:可以輕松的導入表格和數據庫中,一行代表一條數據,這樣就可以批量的導入導出數據庫中的值,這種文件格式經常用來作為不同程序之間的數據交互的格式。
半角逗號 , 和全角逗號 ,的區別:
二者外觀差不多,但是,半角逗號只占半個漢字的位置,而全角逗號占一個漢字的位置,半角逗號用在英文里面。
csv文件的創建:
你有一個TXT文件,並且各項之間以逗號分隔,那么你直接將擴展名改為CSV文件,以EXCEL打開,以逗號分隔的每一列就自動到了EXCEL的每一列中。
你也可以用EXCEL將你的內容存成CSV文件格式。
csv文件的具體文件格式:
1、每條記錄占一行;
2、以逗號為分隔符;
3、逗號前后的空格會被忽略;
4、字段中包含有逗號,該字段必須用雙引號括起來;
5、字段中包含有換行符,該字段必須用雙引號括起來;
6、字段中包含有空格,該字段必須用雙引號括起來;
7、字段中的雙引號用兩個引號來表示,相當於轉義字符;
8、字段中如果由雙引號,該字段必須用雙引號括起來;
9、第一條記錄,可以是段名。
文本文件和二進制文件的區別:
對於文本文件來說,每個字節(或每幾個字節)的意義相同,你只要一個一個字節的讀出來就OK了;而對於二進制文件來說,可能由4個字節保存了一個整型,
接下去有4個字節保存了一個浮點型等等。所以要想打開二進制文件需要了解它的文件格式。
要想知道文件格式,你可以用16進制編輯器打開一個二進制文件,然后猜測它的格式。
注意:不同操作系統的換行符之間的區別:
在windows中:
'/r':回車(Carriage Return),回到當前行的行首,而不會換到下一行;
'/n':換行(Line Feed),換到當前位置的下一行,而不會回到行首。
Unix與Mac系統中,每行結尾只有換行,即:/n,所以:
一個直接后果是,Unix/Mac系統下的文件在Windows里打開的話,所有文件會變成一行;而
Windows里的文件在Unix/Mac下打開的話,在每行的結尾可能會達到多出一個^M符號。