編碼方式
所謂Base64,就是說選出64個字符----小寫字母a-z、大寫字母A-Z、數字0-9、符號"+"、"/"(再加上作為墊字的"=",實際上是65個字符)----作為一個基本字符集。然后,其他所有符號都轉換成這個字符集中的字符。
具體來說,轉換方式可以分為四步。
第一步,將每三個字節作為一組,一共是24個二進制位。 第二步,將這24個二進制位分為四組,每個組有6個二進制位。 第三步,在每組前面加兩個00,擴展成32個二進制位,即四個字節。 第四步,根據下表,得到擴展后的每個字節的對應符號,這就是Base64的編碼值。 |
0 A 17 R 34 i 51 z 1 B 18 S 35 j 52 0 2 C 19 T 36 k 53 1 3 D 20 U 37 l 54 2 4 E 21 V 38 m 55 3 5 F 22 W 39 n 56 4 6 G 23 X 40 o 57 5 7 H 24 Y 41 p 58 6 8 I 25 Z 42 q 59 7 9 J 26 a 43 r 60 8 10 K 27 b 44 s 61 9 11 L 28 c 45 t 62 + 12 M 29 d 46 u 63 / 13 N 30 e 47 v 14 O 31 f 48 w 15 P 32 g 49 x 16 Q 33 h 50 y |
因為,Base64將三個字節轉化成四個字節,因此Base64編碼后的文本,會比原文本大出三分之一左右。
實例
實例一:
舉一個具體的實例,演示英語單詞Man如何轉成Base64編碼。
Text content | M | a | n | |||||||||||||||||||||
ASCII | 77 | 97 | 110 | |||||||||||||||||||||
Bit pattern | 0 | 1 | 0 | 0 | 1 | 1 | 0 | 1 | 0 | 1 | 1 | 0 | 0 | 0 | 0 | 1 | 0 | 1 | 1 | 0 | 1 | 1 | 1 | 0 |
Index | 19 | 22 | 5 | 46 | ||||||||||||||||||||
Base64-Encoded | T | W | F | u |
第一步,"M"、"a"、"n"的ASCII值分別是77、97、110,對應的二進制值是01001101、01100001、01101110,將它們連成一個24位的二進制字符串010011010110000101101110。 第二步,將這個24位的二進制字符串分成4組,每組6個二進制位:010011、010110、000101、101110。 第三步,在每組前面加兩個00,擴展成32個二進制位,即四個字節:00010011、00010110、00000101、00101110。它們的十進制值分別是19、22、5、46。 第四步,根據上表,得到每個值對應Base64編碼,即T、W、F、u。 |
因此,Man的Base64編碼就是TWFu。
如果字節數不足三,則這樣處理:
a)二個字節的情況:將這二個字節的一共16個二進制位,按照上面的規則,轉成三組,最后一組除了前面加兩個0以外,后面也要加兩個0。這樣得到一個三位的Base64編碼,再在末尾補上一個"="號。 比如,"Ma"這個字符串是兩個字節,可以轉化成三組00010011、00010110、00010000以后,對應Base64值分別為T、W、E,再補上一個"="號,因此"Ma"的Base64編碼就是TWE=。 |
b)一個字節的情況:將這一個字節的8個二進制位,按照上面的規則轉成二組,最后一組除了前面加二個0以外,后面再加4個0。這樣得到一個二位的Base64編碼,再在末尾補上兩個"="號。 比如,"M"這個字母是一個字節,可以轉化為二組00010011、00010000,對應的Base64值分別為T、Q,再補上二個"="號,因此"M"的Base64編碼就是TQ==。 |
實例二:
再舉一個中文的例子,漢字"嚴"如何轉化成Base64編碼?
這里需要注意,漢字本身可以有多種編碼,比如gb2312、utf-8、gbk等等,每一種編碼的Base64對應值都不一樣。下面的例子以utf-8為例。
首先,"嚴"的utf-8編碼為E4B8A5,寫成二進制就是三字節的"11100100 10111000 10100101"。將這個24位的二進制字符串,按照第3節中的規則,轉換成四組一共32位的二進制值"00111001 00001011 00100010 00100101",相應的十進制數為57、11、34、37,它們對應的Base64值就為5、L、i、l。
所以,漢字"嚴"(utf-8編碼)的Base64值就是5Lil。
參考