bytes、bytearray
- python3引入了两个新类型
- bytes
- 不可变字节序列
- 可以简单认为字节组成的列表
- bytearray
- 字节数组
- 可变
- bytes
字节组成的序列,字符串组成序列,有什么差异?
- 字符串以字符为单位
- 字节是以单个字节为单位,网络传输时候,很重要
bytes不可变,所以出现了bytearray这种类型
字符串拼接,用‘+’效率不是很高,所以要用format,格式化字符串,format做了效率优化。
所有的数据,都能够用bytes来处理。
python当中,最主要还是用bytes处理字符串
- 字符串与bytes
- 字符串是字符组成的有序列表,字符可以使用编码来理解
- bytes是字节组成的,有序的,不可变序列
- bytearray是字节组成的,有序的,可变序列
- 编码与解码
- 字符串按照不同的字符集编码encode返回字节序列bytes
- encode(encoding='utf-8',error='strict') - bytes - 不可变的
- 字节序列按照不同的字符集编码decode返回字符串
- bytes.decode(encoding='utf-8',error='strict') - str
- bytearray.decode(encoding='utf-8',error='strict') - str
- 字符串按照不同的字符集编码encode返回字节序列bytes
- gb2312、gbk都是2个字节上面玩
- unicode编码,是多字节玩
- 内存中的数据,都是字节,你需要告诉内存,是什么编码,才能找到数字对应的字符。
- linux默认编码是utf-8,windows默认编码是gbk
- linux回车换行符是\r\n,windows下面的回车换行符是\n
- 这是linux和windows对打字机的理解方式不一样
- linux换行,自动到下一行,再回到头。
- windows是先回到头,再下来。
- 这就是大家对不同操作系统不同编码的理解。
- 字符串的编码,是可以理解的。
- 编码无非就是一个编码表,告诉你某一个数字和某一个字符之间的对应。
- 这些字符能够显示在屏幕上,要到字库当中,找对应的点阵映射。
- 然后把点阵映射,映射到屏幕上的点阵上面。
- 列表封装的比数组比较复杂。
- 列表的c语言源码当中,封装的其实,还是数组。
bytes定义
- 定义
- bytes()空bytes,没用
- bytes(int) 指定字节的bytes,被0填充
- bytes(iterable_of_ints) -> bytes
[0,255]
的int组成的可迭代对象 bytes(string,encoding[,errors]) -> bytes
等价于string.encode()- bytes(bytes_or_buffer) -> immutable copy of bytes_or_buffer
- 从一个字节序列或者buffer复制出一个新的不可变的bytes对象
- 使用b前缀定义
- 只允许基本ASCII使用字符形式b'abc9'
- 使用16进制表示b"\x41\x61"
- 和str类型相似,都是不可变类型,所以方法很多都一样。只不过bytes的方法,输入是bytes,输出是bytes
- b'abcdef'.replace(b'f',b'k')
- b'abc'.find(b'b')
- 类方法 bytes.fromhex(string)
- 类似于java和c++当中的静态方法
- string必须是2个字符的16进制的形式,'6162 6a 6b',空格将被忽略
- bytes.fromhex('6162 09 6a 6b00')
- hex()
- 返回16进制表示的字符串
- 'abc'.encode().hex()
- 索引
b'abcdef'[2]
返回该字节对应的数,int类型。
有序的序列,一定可以索引和迭代
bytearray定义
- 定义
- bytearray()空bytes
- bytearray(int)指定字节的bytearray,被0填充
- bytearray(iterable_of_ints) -> bytearray
[0,255]
的int组成的可迭代对象 bytearray(string,encoding[,errors]) -> bytearray
近似string.encode() 不过返回可变对象- bytearray(bytes_or_buffer)从一个字节序列或者buffer复制出一个新的可变的bytearray对象
- 这个方法,可以将bytes转变成为bytearray,消耗一次内存拷贝。
注意,b前缀定义的类型是bytes类型
buffer本身,就是一个bytearray
bytearray操作
- 和bytes类型的方法相同
- bytearray(b'abcdef').replace(b'f',b'k')
- bytearray(b'abc').find(b'b')
- 类方法 bytearray.fromhex(string)
- string必须是2个字符的16进制的形式,'6162 6a 6b',空格将被忽略
- bytearray.fromhex('6162 09 6a 6b00')
- hex()
- 返回16进制表示的字符串
- bytearray('abc'.encode()).hex()
- 索引
bytearray(b'abcdef')[2]
返回该字节对应的数,int类型
bytearray操作
-
append(int)尾部追加一个元素
-
insert(index,int)在指定索引位置插入元素
-
extend(iterable_of_ints)将一个可迭代的整数集合追加到当前bytearray
-
pop(index=-1)从指定索引上移除元素,默认从尾部移除
-
remove(value)找到第一个value移除,找不到抛ValueError异常
-
注意:上述方法若需要使用int类型,值在
[0,255]
-
clear() 清空bytearray
-
reverse() 翻转bytearray,就地修改
-
b = bytearray()
-
b.append(97)
-
b.append(99)
-
b.insert(1,98)
-
b.extend([65,66,67])
-
b.remove(66) # 找不到抛出异常,一定要注意处理异常
-
b.pop
-
b.reverse()
-
b.clear()