Python中的字符串和編碼

本文轉載自查看原文 2019-03-14 21:16 580 Python

1.ASCII、Unicode和UTF-8的關系：

ASCII編碼實際上可以被看成是UTF-8編碼的一部分

用記事本編輯的時候，從文件讀取的UTF-8字符被轉換為Unicode字符到內存里，編輯完成后，保存的時候再把Unicode轉換為UTF-8保存到文件：

瀏覽網頁的時候，服務器會把動態生成的Unicode內容轉換為UTF-8再傳輸到瀏覽器：

2.字符串

對於單個字符的編碼，Python提供了ord()函數獲取字符的整數表示，chr()函數把編碼轉換為對應的字符：

如果知道字符的整數編碼，還可以用十六進制這么寫str：

由於Python的字符串類型是str，在內存中以Unicode表示，一個字符對應若干個字節。如果要在網絡上傳輸，或者保存到磁盤上，就需要把str變為以字節為單位的bytes。

Python對bytes類型的數據用帶b前綴的單引號或雙引號表示：

以Unicode表示的str通過encode()方法可以編碼為指定的bytes，例如：（str—>encode()—>byte）

純英文的str可以用ASCII編碼為bytes，內容是一樣的，含有中文的str可以用UTF-8編碼為bytes。含有中文的str無法用ASCII編碼，因為中文編碼的范圍超過了ASCII編碼的范圍，Python會報錯。

在bytes中，無法顯示為ASCII字符的字節，用\x##顯示。

反過來，如果我們從網絡或磁盤上讀取了字節流，那么讀到的數據就是bytes。要把bytes變為str，就需要用decode()方法：（bytes—>decode()—>str）

如果bytes中包含無法解碼的字節，decode()方法會報錯：

如果bytes中只有一小部分無效的字節，可以傳入errors='ignore'忽略錯誤的字節：

要計算str包含多少個字符，可以用len()函數：

len()函數計算的是str的字符數，如果換成bytes，len()函數就計算字節數：

由於Python源代碼也是一個文本文件，所以，當你的源代碼中包含中文的時候，在保存源代碼時，就需要務必指定保存為UTF-8編碼。當Python解釋器讀取源代碼時，為了讓它按UTF-8編碼讀取，我們通常在文件開頭寫上這兩行：

#!/usr/bin/env python3
# -*- coding: utf-8 -*-

如何輸出格式化的字符串。我們經常會輸出類似'親愛的xxx你好！你xx月的話費是xx，余額是xx'之類的字符串，而xxx的內容都是根據變量變化的，所以，需要一種簡便的格式化字符串的方式。

在Python中，采用的格式化方式和C語言是一致的，用%實現，舉例如下：

>>> 'Hello, %s' % 'world'
'Hello, world'
>>> 'Hi, %s, you have $%d.' % ('Michael', 1000000)
'Hi, Michael, you have $1000000.'

%運算符就是用來格式化字符串的。在字符串內部，%s表示用字符串替換，%d表示用整數替換，有幾個%?占位符，后面就跟幾個變量或者值，順序要對應好。如果只有一個%?，括號可以省略。

常見的占位符有：

另一種格式化字符串的方法是使用字符串的format()方法，它會用傳入的參數依次替換字符串內的占位符{0}、{1}……，不過這種方式寫起來比%要麻煩得多：

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 Python中的字符串與字符編碼 Python中的字符串與字符編碼 Python中的字符串與字符編碼關於python中的字符串編碼理解 python中字符串編碼轉換 Python的字符串編碼 python字符串編碼 python中字符串的編碼和解碼 Python3中轉換字符串編碼 python中字符串編碼方式小結