幾種編碼方式


UTF-16是Unicode字符編碼五層次模型的第三層,字符編碼表(Character Encoding Form,)的一種實現方式。即把Unicode的字符集的抽象碼位

映射為16位長的整數(即碼元)的序列,用於數據存儲或傳遞。Unicode字符的碼位,需要1個或者2個16位長的碼元來表示,因此這是一個變長表示。

UTF-16比起UTF-8,好處在於大部分字符都以固定長度的字節 (2字節) 儲存,但UTF-16卻無法兼容於ASCII編碼。

Unicode(統一碼、萬國碼、單一碼)是計算機科學領域里的一項業界標准,包括字符集、編碼方案等。Unicode 是為了解決傳統的字符編碼方案的局限而產生的,它為每種語言中的每個字符設定了統一並且唯一的二進制編碼,以滿足跨語言、跨平台進行文本轉換、處理的要求。

GB2312是中國規定的漢字編碼,也可以說是簡體中文的字符集編碼;

GBK是GB2312的擴展,除了兼容GB2312外,它還能顯示繁體中文,還有日文的假名。

Unicode(統一碼、萬國碼、單一碼)是計算機科學領域里的一項業界標准,包括字符集、編碼方案等。Unicode 是為了解決傳統的字符編碼方案的局限而產生的,它為每種語言中的每個字符設定了統一並且唯一的二進制編碼,以滿足跨語言、跨平台進行文本轉換、處理的要求。

 

UTF-8和GBK的區別:

字符均使用雙字節來表示,只不過區分中文,將其最高位都定成1.

至於UTF-8編碼則是用以解決國際上字符的一種多字節編碼,它對英文使用8位(即一個字節),中文

使用24位(三個字節)來編碼。對於英文字符使用較多的論壇則用UTF-8節省空間。

GBK包括全部中文字符;UTF-8則包含全世界所有國家需要用到的字符。

UTF-8編碼的文字可以在各國各種支持UTF-8字符集的瀏覽器上顯示。

大家都使用過Word,Word在打開文本文件的時候,如果其檢測不是系統默認編碼,就會讓用戶選擇,並且推薦一種編碼給用戶(有時候不一定對,因為猜,就有幾率不對),讓用戶自己決定要用什么編碼顯示.

 

CSV文件:CSV(comma  seperated value)即逗號分隔符,用記事本打開的話hi"a","b","c"這種格式,是文本文件。

好處:可以輕松的導入表格和數據庫中,一行代表一條數據,這樣就可以批量的導入導出數據庫中的值,這種文件格式經常用來作為不同程序之間的數據交互的格式。

 半角逗號 , 和全角逗號 ,的區別:

二者外觀差不多,但是,半角逗號只占半個漢字的位置,而全角逗號占一個漢字的位置,半角逗號用在英文里面。

 

csv文件的創建:

你有一個TXT文件,並且各項之間以逗號分隔,那么你直接將擴展名改為CSV文件,以EXCEL打開,以逗號分隔的每一列就自動到了EXCEL的每一列中。
你也可以用EXCEL將你的內容存成CSV文件格式。

 

csv文件的具體文件格式:

1、每條記錄占一行;

2、以逗號為分隔符;

3、逗號前后的空格會被忽略;

4、字段中包含有逗號,該字段必須用雙引號括起來;

5、字段中包含有換行符,該字段必須用雙引號括起來;

6、字段中包含有空格,該字段必須用雙引號括起來;

7、字段中的雙引號用兩個引號來表示,相當於轉義字符;

8、字段中如果由雙引號,該字段必須用雙引號括起來;

9、第一條記錄,可以是段名。

 

文本文件和二進制文件的區別:

對於文本文件來說,每個字節(或每幾個字節)的意義相同,你只要一個一個字節的讀出來就OK了;而對於二進制文件來說,可能由4個字節保存了一個整型,

接下去有4個字節保存了一個浮點型等等。所以要想打開二進制文件需要了解它的文件格式。

要想知道文件格式,你可以用16進制編輯器打開一個二進制文件,然后猜測它的格式。

 

注意:不同操作系統的換行符之間的區別:

在windows中:

'/r':回車(Carriage Return),回到當前行的行首,而不會換到下一行;

'/n':換行(Line Feed),換到當前位置的下一行,而不會回到行首。

Unix與Mac系統中,每行結尾只有換行,即:/n,所以:

一個直接后果是,Unix/Mac系統下的文件在Windows里打開的話,所有文件會變成一行;而

Windows里的文件在Unix/Mac下打開的話,在每行的結尾可能會達到多出一個^M符號。

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM