MySQL 數據庫字符集 utf8 和 utf8mb4 的區別

本文轉載自查看原文 2019-04-28 17:52 6140 [09] 數據庫

參考於今日頭條上Java芋道源碼的-----記住：永遠不要在 MySQL 中使用 UTF-8

字符集選擇

MySQL 的 utf8 實際上不是真正的 UTF-8。utf8 只支持每個字符最多三個字節，而真正的 UTF-8 是每個字符最多四個字節。

MySQL 一直沒有修復這個 bug，他們在 2010 年發布了一個叫作 utf8mb4 的字符集，繞過了這個問題。當然，他們並沒有對新的字符集廣而告之（可能是因為這個 bug 讓他們覺得很尷尬），以致於現在網絡上仍然在建議開發者使用 utf8，但這些建議都是錯誤的。

簡單概括如下：

（1）MySQL 的 utf8mb4 是真正的 UTF-8。

（2）MySQL 的 utf8 是一種專屬的編碼，它能夠編碼的 Unicode 字符並不多。

所有在使用 utf8 的 MySQL 和 MariaDB 用戶都應該改用 utf8mb4，永遠都不要再使用 utf8。

這里（https://mathiasbynens.be/notes/mysql-utf8mb4#utf8-to-utf8mb4）提供了一個指南用於將現有數據庫的字符編碼從 utf8 轉成 utf8mb4。

歷史原因

為什么 MySQL 開發者會讓“utf8”失效？我們或許可以從提交日志中尋找答案。

MySQL 從 4.1 版本開始支持 UTF-8，也就是 2003 年，而今天使用的 UTF-8 標准（RFC 3629）是隨后才出現的。

舊版的 UTF-8 標准（RFC 2279）最多支持每個字符 6 個字節。2002 年 3 月 28 日，MySQL 開發者在第一個 MySQL 4.1 預覽版中使用了 RFC 2279。

同年 9 月，他們對 MySQL 源代碼進行了一次調整：“UTF8 現在最多只支持 3 個字節的序列”。

是誰提交了這些代碼？他為什么要這樣做？這個問題不得而知。在遷移到 Git 后（MySQL 最開始使用的是 BitKeeper），MySQL 代碼庫中的很多提交者的名字都丟失了。2003 年 9 月的郵件列表中也找不到可以解釋這一變更的線索。

不過我可以試着猜測一下。

2002 年，MySQL 做出了一個決定：如果用戶可以保證數據表的每一行都使用相同的字節數，那么 MySQL 就可以在性能方面來一個大提升。為此，用戶需要將文本列定義為“CHAR”，每個“CHAR”列總是擁有相同數量的字符。如果插入的字符少於定義的數量，MySQL 就會在后面填充空格，如果插入的字符超過了定義的數量，后面超出部分會被截斷。

MySQL 開發者在最開始嘗試 UTF-8 時使用了每個字符 6 個字節，CHAR(1) 使用 6 個字節，CHAR(2) 使用 12 個字節，並以此類推。

應該說，他們最初的行為才是正確的，可惜這一版本一直沒有發布。但是文檔上卻這么寫了，而且廣為流傳，所有了解 UTF-8 的人都認同文檔里寫的東西。

不過很顯然，MySQL 開發者或廠商擔心會有用戶做這兩件事：

（1）使用 CHAR 定義列（在現在看來，CHAR 已經是老古董了，但在那時，在 MySQL 中使用 CHAR 會更快，不過從 2005 年以后就不是這樣子了）。

（2）將 CHAR 列的編碼設置為“utf8”。

我的猜測是 MySQL 開發者本來想幫助那些希望在空間和速度上雙贏的用戶，但他們搞砸了“utf8”編碼。

所以結果就是沒有贏家。那些希望在空間和速度上雙贏的用戶，當他們在使用“utf8”的 CHAR 列時，實際上使用的空間比預期的更大，速度也比預期的慢。而想要正確性的用戶，當他們使用“utf8”編碼時，卻無法保存像“”這樣的字符。

在這個不合法的字符集發布了之后，MySQL 就無法修復它，因為這樣需要要求所有用戶重新構建他們的數據庫。最終，MySQL 在 2010 年重新發布了“utf8mb4”來支持真正的 UTF-8。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 MySQL數據庫字符集由utf8修改為utf8mb4一例 mysql新建數據庫字符集為什么選utf8mb4不選utf8 mysql字符集 utf8 和utf8mb4 的區別 mysql修改字符集utf8為utf8mb4 數據庫 mysql數據庫 utf8和utf8mb4的區別 MySQL字符集 utf8 和 utf8mb4 區別及排序規則 general_ci 和 unicode_ci 和 bin 的區別 MySQL 如何修改字符集 utf8 改為 utf8mb4 MySQL 8.0：字符集從 utf8 轉換成 utf8mb4的遷移方法【轉】 Mysql字符集之utf8和utf8mb4的使用問題 MySql字符集從utf8升級到utf8mb4說明和實現方式[詳細]