Python使用struct處理二進制(pack和unpack用法)


轉自:https://blog.csdn.net/jackyzhousales/article/details/78030847

python有時需要處理二進制數據,例如 存取文件,socket操作時.這時候,可以使用python的struct模塊來完成.可以用struct來處理c語言中的結構體.


struct模塊中最重要的三個函數是pack(), unpack(), calcsize

# 按照給定的格式(fmt),把數據封裝成字符串(實際上是類似於c結構體的字節流)
pack(fmt, v1, v2, ...) 
# 按照給定的格式(fmt)解析字節流string,返回解析出來的tuple
unpack(fmt,string)       
# 計算給定的格式(fmt)占用多少字節的內存
calcsize(fmt)

上述fmt中,支持的格式為:
FORMAT C TYPE PYTHON TYPE STANDARD SIZE NOTES
x pad byte no value    
c char string of length 1 1  
b signed char integer 1 (3)
B unsigned char integer 1 (3)
? _Bool bool 1 (1)
h short integer 2 (3)
H unsigned short integer 2 (3)
i int integer 4 (3)
I unsigned int integer 4 (3)
l long integer 4 (3)
L unsigned long integer 4 (3)
q long long integer 8 (2), (3)
Q unsigned long long integer 8 (2), (3)
f float float 4 (4)
d double float 8 (4)
s char[] string    
p char[] string    
P void * integer   (5), (3)
注1.q和Q只在機器支持64位操作系統有意義
注2.每個格式前可以有一個數字,表示個數
注3.s格式表示一定長度的字符串,4s表示長度為4的字符串,但是p表示的是pascal字符串
注4.P用來轉換一個指針,其長度和機器字長相關
注5.最后一個可以用來表示指針類型的,占4個字節
為了同c中的結構體交換數據,還要考慮有的c或c++編譯器使用了字節對齊,通常是以4個字節為單位的32位系統,故而struct根據本地機器字節順序轉換.可以用格式中的第一個字符來改變對齊方式.定義如下:
CHARACTER BYTE ORDER SIZE ALIGNMENT
@ native native native
= native standard none
< little-endian standard none
> big-endian standard none
! network (= big-endian) standard none
使用方法是放在fmt的第一個位置,就像’@5s6sif

 

示例一:

比如有一個結構體

struct Header

{

    unsigned short id;

    char[4] tag;

    unsigned int version;

    unsigned int count;

}

通過socket.recv接收到了一個上面的結構體數據,存在字符串s中,現在需要把它解析出來,可以使用unpack()函數.

import struct

id, tag, version, count = struct.unpack("!H4s2I", s)

上面的格式字符串中,!表示我們要使用網絡字節順序解析,因為我們的數據是從網絡中接收到的,在網絡上傳送的時候它是網絡字節順序的.后面的H表示 一個unsigned short的id,4s表示4字節長的字符串,2I表示有兩個unsigned int類型的數據.
就通過一個unpack,現在id, tag, version, count里已經保存好我們的信息了.

 

同樣,也可以很方便的把本地數據再pack成struct格式.

ss = struct.pack("!H4s2I", id, tag, version, count);

pack函數就把id, tag, version, count按照指定的格式轉換成了結構體Header,ss現在是一個字符串(實際上是類似於c結構體的字節流),可以通過 socket.send(ss)把這個字符串發送出去.


示例二:

import struct

a=12.34

#將a變為二進制

bytes=struct.pack('i',a)

此時bytes就是一個string字符串,字符串按字節同a的二進制存儲內容相同。


再進行反操作

現有二進制數據bytes,(其實就是字符串),將它反過來轉換成python的數據類型:

a,=struct.unpack('i',bytes)

注意,unpack返回的是tuple,所以如果只有一個變量的話:

bytes=struct.pack('i',a)

那么,解碼的時候需要這樣

a,=struct.unpack('i',bytes) 或者 (a,)=struct.unpack('i',bytes)

如果直接用a=struct.unpack('i',bytes),那么 a=(12.34,) ,是一個tuple而不是原來的浮點數了。


如果是由多個數據構成的,可以這樣:

a='hello'

b='world!'

c=2

d=45.123

bytes=struct.pack('5s6sif',a,b,c,d)

此時的bytes就是二進制形式的數據了,可以直接寫入文件比如 binfile.write(bytes)

然后,當我們需要時可以再讀出來,bytes=binfile.read()

再通過struct.unpack()解碼成python變量

a,b,c,d=struct.unpack('5s6sif',bytes)

'5s6sif'這個叫做fmt,就是格式化字符串,由數字加字符構成,5s表示占5個字符的字符串,2i,表示2個整數等等,下面是可用的字符及類型,ctype表示可以與python中的類型一一對應。


注意:二進制文件處理時會碰到的問題

我們使用處理二進制文件時,需要用如下方法

binfile=open(filepath,'rb')    讀二進制文件

binfile=open(filepath,'wb')    寫二進制文件

那么和binfile=open(filepath,'r')的結果到底有何不同呢?

不同之處有兩個地方:

第一,使用'r'的時候如果碰到'0x1A',就會視為文件結束,這就是EOF。使用'rb'則不存在這個問題。即,如果你用二進制寫入再用文本讀出的話,如果其中存在'0X1A',就只會讀出文件的一部分。使用'rb'的時候會一直讀到文件末尾。

第二,對於字符串x='abc\ndef',我們可用len(x)得到它的長度為7,\n我們稱之為換行符,實際上是'0X0A'。當我們用'w'即文本方式寫的時候,在windows平台上會自動將'0X0A'變成兩個字符'0X0D','0X0A',即文件長度實際上變成8.。當用'r'文本方式讀取時,又自動的轉換成原來的換行符。如果換成'wb'二進制方式來寫的話,則會保持一個字符不變,讀取時也是原樣讀取。所以如果用文本方式寫入,用二進制方式讀取的話,就要考慮這多出的一個字節了。'0X0D'又稱回車符。linux下不會變。因為linux只使用'0X0A'來表示換行。

 

基本的pack和unpack

import struct
import binascii
values = (1, 'abc', 2.7)
s = struct.Struct('I3sf')
packed_data = s.pack(*values)
unpacked_data = s.unpack(packed_data)
 
print 'Original values:', values
print 'Format string :', s.format
print 'Uses :', s.size, 'bytes'
print 'Packed Value :', binascii.hexlify(packed_data)
print 'Unpacked Type :', type(unpacked_data), ' Value:', unpacked_data
輸出:

Original values: (1, 'abc', 2.7) 
Format string : I3sf 
Uses : 12 bytes 
Packed Value : 0100000061626300cdcc2c40 
Unpacked Type : <type 'tuple'>  Value: (1, 'abc', 2.700000047683716)

代碼中,首先定義了一個元組數據,包含int、string、float三種數據類型,然后定義了struct對象,並制定了format‘I3sf’,I 表示int,3s表示三個字符長度的字符串,f 表示 float。最后通過struct的pack和unpack進行打包和解包。通過輸出結果可以發現,value被pack之后,轉化為了一段二進制字節串,而unpack可以把該字節串再轉換回一個元組,但是值得注意的是對於float的精度發生了改變,這是由一些比如操作系統等客觀因素所決定的。打包之后的數據所占用的字節數與C語言中的struct十分相似。

 字節順序

   另一方面,打包的后的字節順序默認上是由操作系統的決定的,當然struct模塊也提供了自定義字節順序的功能,可以指定大端存儲、小端存儲等特定的字節順序,對於底層通信的字節順序是十分重要的,不同的字節順序和存儲方式也會導致字節大小的不同。在format字符串前面加上特定的符號即可以表示不同的字節順序存儲方式,例如采用小端存儲 s = struct.Struct(‘<I3sf’)就可以了。官方api library 也提供了相應的對照列表:

 

 利用buffer,使用pack_into和unpack_from方法

  使用二進制打包數據的場景大部分都是對性能要求比較高的使用環境。而在上面提到的pack方法都是對輸入數據進行操作后重新創建了一個內存空間用於返回,也就是說我們每次pack都會在內存中分配出相應的內存資源,這有時是一種很大的性能浪費。struct模塊還提供了pack_into() 和 unpack_from()的方法用來解決這樣的問題,也就是對一個已經提前分配好的buffer進行字節的填充,而不會每次都產生一個新對象對字節進行存儲。

1
2
3
4
5
6
7
8
9
10
11
12
import struct
import binascii
import ctypes
 
values= (1,'abc',2.7)
s= struct.Struct('I3sf')
prebuffer= ctypes.create_string_buffer(s.size)
print 'Before :',binascii.hexlify(prebuffer)
s.pack_into(prebuffer,0,*values)
print 'After pack:',binascii.hexlify(prebuffer)
unpacked= s.unpack_from(prebuffer,0)
print 'After unpack:',unpacked
輸出:

Before : 000000000000000000000000 
After pack: 0100000061626300cdcc2c40 
After unpack: (1, 'abc', 2.700000047683716) 
對比使用pack方法打包,pack_into 方法一直是在對prebuffer對象進行操作,沒有產生多余的內存浪費。另外需要注意的一點是,pack_into和unpack_from方法均是對string buffer對象進行操作,並提供了offset參數,用戶可以通過指定相應的offset,使相應的處理變得更加靈活。例如,我們可以把多個對象pack到一個buffer里面,然后通過指定不同的offset進行unpack:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
import struct
import binascii
import ctypes
 
values1= (1,'abc',2.7)
values2= ('defg',101)
s1= struct.Struct('I3sf')
s2= struct.Struct('4sI')
 
prebuffer= ctypes.create_string_buffer(s1.size+s2.size)
print 'Before :',binascii.hexlify(prebuffer)
s1.pack_into(prebuffer,0,*values1)
s2.pack_into(prebuffer,s1.size,*values2)
print 'After pack:',binascii.hexlify(prebuffer)
print s1.unpack_from(prebuffer,0)
print s2.unpack_from(prebuffer,s1.size)
輸出:

Before : 0000000000000000000000000000000000000000 
After pack: 0100000061626300cdcc2c406465666765000000 
(1, 'abc', 2.700000047683716) 
('defg', 101)
---------------------
作者:JackyOps
來源:CSDN
原文:https://blog.csdn.net/jackyzhousales/article/details/78030847
版權聲明:本文為博主原創文章,轉載請附上博文鏈接!


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM