Python解碼base64遇到Incorrect padding錯誤


項目提供接口給第三方對接,返回消息說接口報錯,查看系統日志定位錯誤位置,報錯是

2022-03-28T03:12:07.692756725Z 2022-03-28 03:12:07,692 2031 ERROR ** odoo.addons.fdfs.models.attachment: Incorrect padding

定位到錯誤代碼為

bin_value = content.decode('base64')

先說一下base64的編碼過程,再來分析錯誤。

base64是一種用64個字符來表示任意二進制數據的方法,用記事本打開exe、jpg、pdf這些文件時,我們都會看到一大堆代碼,因為二進制文件包含很多無法顯示和打印的字符,所以,想要記事本這樣的文本處理軟件能處理二進制文件,就需要一個二進制到字符串的轉換方法,base64就是一個最常見的二進制編碼方法。

base64的原理很簡單,選出64個字符——小寫字母a-z,大寫字母A-Z,數字0-9,符號“+”、“/”(再加上作為墊字的“=”,實際上是65個字符)作為一個基本字符集,然后,把數據都轉換成這個基本字符集中的字符。轉換方式可以分為四步:

  1. 將每三個字節作為一組,一共是24個二進制位。
  2. 將這24個二進制位分為四組,每個組有6個二進制位。
  3. 在每組前面加兩個00,擴展成32個二進制位,即四個字節。
  4. 根據下表,得到擴展后的每個字節的對應符號,這就是Base64的編碼值。
  0 A  17 R   34 i   51 z

  1 B  18 S   35 j   52 0

  2 C  19 T   36 k   53 1

  3 D  20 U   37 l   54 2

  4 E  21 V   38 m   55 3

  5 F  22 W   39 n   56 4

  6 G  23 X   40 o   57 5

  7 H  24 Y   41 p   58 6

  8 I  25 Z   42 q   59 7

  9 J  26 a   43 r   60 8

  10 K  27 b   44 s   61 9

  11 L  28 c   45 t   62 +

  12 M  29 d   46 u   63 /

  13 N  30 e   47 v

  14 O  31 f   48 w   

  15 P  32 g   49 x

  16 Q  33 h   50 y

base64編碼就是把3字節的二進制數據編碼為4字節的文本上數據,長度增加33%,好處是編碼后的文本數據可以在郵件正文、網頁等直接顯示。

現在出現一個一個問題:如果要編碼的數據不是3的倍數,那最后剩下一個或兩個字節總么辦?

  • 二個字節的情況:將這二個字節的一共16個二進制位,按照上面的規則,轉成三組,最后一組除了前面加兩個0以外,后面也要加兩個0。這樣得到一個三位的Base64編碼,再在末尾補上一個"="號。比如,"Ma"這個字符串是兩個字節,可以轉化成三組00010011、00010110、00010000以后,對應Base64值分別為T、W、E,再補上一個"="號,因此"Ma"的Base64編碼就是TWE=。
  • 一個字節的情況:將這一個字節的8個二進制位,按照上面的規則轉成二組,最后一組除了前面加二個0以外,后面再加4個0。這樣得到一個二位的Base64編碼,再在末尾補上兩個"="號。比如,"M"這個字母是一個字節,可以轉化為二組00010011、00010000,對應的Base64值分別為T、Q,再補上二個"="號,因此"M"的Base64編碼就是TQ==。

 

 

>>> base64.b64encode(b'i\xb7\x1d\xfb\xef\xff')
b'abcd++//'
>>> base64.urlsafe_b64encode(b'i\xb7\x1d\xfb\xef\xff')
b'abcd--__'
>>> base64.urlsafe_b64decode('abcd--__')
b'i\xb7\x1d\xfb\xef\xff'

 

base64還可以自己定義64個字符的排列順序,這樣就可以自定義Base64編碼,不過,通常情況下完全沒有必要。Base64是一種通過查表的編碼方法,不能用於加密,即使使用自定義的編碼表也不行。Base64適用於小段內容的編碼,比如數字證書簽名、Cookie的內容等。由於=字符也可能出現在Base64編碼中,但=用在URL、Cookie里面會造成歧義,所以,很多Base64編碼后會把=去掉。

# 標准Base64:
'abcd' -> 'YWJjZA=='
# 自動去掉=:
'abcd' -> 'YWJjZA'

去掉=后怎么解碼呢?因為Base64是把3個字節變為4個字節,所以,Base64編碼的長度永遠是4的倍數,因此,需要加上=把Base64字符串的長度變為4的倍數,就可以正常解碼了。

總結:base64編碼長度必須為4的倍數,不足則需要補上缺失個數的=才能正常解碼,編碼也可能是以url安全的方式進行的。如果是這種情況,將能夠在數據中看到減號和下划線字符,應該使用base64.b64decode(strg, '-_')去解碼。

最終,我發現項目程序報錯的原因是編碼長度非4的倍數。

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM