base64表示一種使用64個字符表示任意二進制數據的方法,注意64個字符是可以自己定義的
參考鏈接:https://www.liaoxuefeng.com/wiki/1016959663602400/1017684507717184
用記事本打開exe
、jpg
、pdf
這些文件時,我們都會看到一大堆亂碼,因為二進制文件包含很多無法顯示和打印的字符,所以,如果要讓記事本這樣的文本處理軟件能處理二進制數據,就需要一個二進制到字符串的轉換方法。Base64是一種最常見的二進制編碼方法。
原理
首先准備一個包含64個字符的數組,這就相當於Ascii編碼中的Ascii表,根據下面的算法得出的數過來查表,得到的一個一個的字符就是最后將二進制進行base64編碼得到的字符串
['A', 'B', 'C', ... 'a', 'b', 'c', ... '0', '1', ... '+', '/']
然后,對二進制數據進行處理,每3個字節一組,一個字節是8bit,一共是3x8=24
bit,又將這3組划為4組,每組正好6個bit:
然后將這6bit轉為10進制的數,(6bit的二進制數剛好能表示0-63,就是64個數 )作為索引,然后查表,獲得相應的4個字符,就是編碼后的字符串。
使用
以上就是base的編碼原理,所以,根據自己定義的64個字符串的不同,同樣的二進制文件可能也有不同的結果
另外,上面分組的過程中,我們將二進制文件分為3個字節的組,那么當二進制的長度不是3的倍數會怎么辦呢,Base64用\x00
字節在末尾補足后,再在編碼的末尾加上1個或2個=
號,表示補了多少字節,解碼的時候,會自動去掉。
>>> base64.b64encode(b'\x00\x00\x00') b'AAAA' >>> base64.b64encode(b'\x00\x00') b'AAA='#就不查表了,直接用等號表示,這樣並不會造成之前的字節中的數據丟失,因為在解碼的時候,將等號變為相應的\x00,在通過表把base64編碼轉為二進制字節時,你會發現這樣並不會 >>>
Python內置的base64
可以直接進行base64的編解碼:
>>> import base64 >>> base64.b64encode(b'binary\x00string') b'YmluYXJ5AHN0cmluZw==' >>> base64.b64decode(b'YmluYXJ5AHN0cmluZw==') b'binary\x00string'
由於標准的Base64編碼后可能出現字符+
和/
,在URL中就不能直接作為參數,所以又有一種"url safe"的base64編碼,其實就是把字符+
和/
分別變成-
和_(略)
還可以自己定義64個字符的排列順序,這樣就可以自定義Base64編碼,不過,通常情況下完全沒有必要。
Base64是一種通過查表的編碼方法,不能用於加密,即使使用自定義的編碼表也不行。
Base64適用於小段內容的編碼,比如數字證書簽名、Cookie的內容等。
由於=
字符也可能出現在Base64編碼中,但=
用在URL、Cookie里面會造成歧義,所以,很多Base64編碼后會把=
去掉:
# 標准Base64: 'abcd' -> 'YWJjZA==' # 自動去掉=: 'abcd' -> 'YWJjZA'
去掉=
后怎么解碼呢?因為Base64是把3個字節變為4個字節,所以,Base64編碼的長度永遠是4的倍數,因此,需要加上=
把Base64字符串的長度變為4的倍數,就可以正常解碼了。(因為等號是怎么加的,加等號是為了 表示\x00
字節在末尾補足的個數)
Base64是一種任意二進制到文本字符串的編碼方法,常用於在URL、Cookie、網頁中傳輸少量二進制數據。