python中的bytes和str類型


  經過一上午的查找資料。大概理清楚了bytes類型和str類型的區別。

  bytes類型和str類型在呈現形式有相同之處,如果你print一個bytes類型的變量,會打印一個用b開頭,用單引號括起來的序列。比如:  

>>> c = b'\x80abc'
>>> type(c)
bytes

  我們看到c = b'\x80abc'表示的就是一個bytes類型。是不是和字符串很像?只是前面多出來一個b。那b'\x80abc的含義是什么呢?\x80即16進制的兩位數,代表十進制的0-255,同時也代表一個字節,8個bit。abc,即英文字母abc,為什么這里不是\x...的形式呢。因為在utf-8里,一個ASCII碼 的儲存形式完全不變,一個a也就用一個字節來儲存。

  那么b'\x80abc'的儲存情況就完全明白了,一共四個字節,每個字節值的情況一目了然。下面再做一個實驗。

>>> A = b'\xe5\x9d\x8fHello'.decode("utf-8","strict")
>>> A
'壞Hello'
>>> type(A)
str

  首先要知道utf-8是可變長編碼。中文字符占3個字節,‘壞’字的utf-8碼為\xe5\x9d\x8f 。那么給定一個bytes序列 b'\xe5\x9d\x8fHello', 用utf-8解碼,顯然能得到壞Hello。並且我們看到,解碼之后,A已經變成了str類型,和預想一模一樣。

  假如python無法將一個二進制解碼成utf-8碼,則會報錯。比如解碼b'\x80abc'則會報錯:

  'utf-8' codec can't decode byte 0x80 in position 0:invalid start byte


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM