Unicode字符串和非Unicode字符串


什么是Unicode?

Unicode(統一碼、萬國碼、單一碼)是計算機科學領域里的一項業界標准,包括字符集、編碼方案等。Unicode 是為了解決傳統的字符編碼方案的局限而產生的,它為每種語言中的每個字符設定了統一並且唯一的二進制編碼,以滿足跨語言、跨平台進行文本轉換、處理的要求。

字符串?

字符串或串(String)是由數字、字母、下划線組成的一串字符。一般記為 s=“a1a2···an”(n>=0)。它是編程語言中表示文本的數據類型。在程序設計中,字符串(string)為符號或數值的一個連續序列,如符號串(一串字符)或二進制數字串(一串二進制數字)。

UTF-8

UTF-8(8-bit Unicode Transformation Format)是一種針對Unicode的可變長度字符編碼,又稱萬國碼,由Ken Thompson於1992年創建。現在已經標准化為RFC 3629。UTF-8用1到6個字節編碼Unicode字符。用在網頁上可以統一頁面顯示中文簡體繁體及其它語言(如英文,日文,韓文)。

當我們弄清楚已上三種的的區別,相信很多人應該都懂了Unicode字符串和非Unicode字符串的區別吧!

最通俗的講Unicode字符串和就是將普通字符串給標准化了,它為 每個字符設定了統一並且唯一的二進制編碼,以滿足跨語言、跨平台進行文本轉換、處理的要求。

通過以下Python代碼,希望大家能理解:

# -*- coding: utf-8 -*-
#!/usr/bin/env python 
# @Time    : 2018/7/3 10:03
# @Desc    : 
# @File    : test.py
# @Software: PyCharm


if __name__ == '__main__':
    #定義一般字符串
    str="代碼幫"
    #字符串前面加u,定義標准unicode字符串
    unicodestr=u"代碼幫"
    #將一般字符串轉化為標准unicode字符串
    unicodestrs = unicode(str, "utf-8")
    print str
    print unicodestr
    print unicodestrs

    print type(str)
    print type(unicodestr)
    print type(unicodestrs)


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM