MySQL 百萬到千萬級別數據量的優化方案

本文轉載自查看原文 2020-04-30 16:21 3966 database/ Mysql

百萬級

字段選擇優化

表字段 not null，因為 null 值很難查詢優化且占用額外的索引空間，推薦默認數字 0。
數據狀態類型的字段，比如 status, type 等等，盡量不要定義負數，如 -1。因為這樣可以加上 UNSIGNED，數值容量就會擴大一倍。
可以的話用 TINYINT、SMALLINT 等代替 INT，盡量不使用 BIGINT，因為占的空間更小。
字符串類型的字段會比數字類型占的空間更大，所以盡量用整型代替字符串，很多場景是可以通過編碼邏輯來實現用整型代替的。
字符串類型長度不要隨意設置，保證滿足業務的前提下盡量小。
用整型來存 IP。
單表不要有太多字段，建議在20以內。
為能預見的字段提前預留，因為數據量越大，修改數據結構越耗時。

索引設計優化

索引，空間換時間的優化策略，基本上根據業務需求設計好索引，足以應付百萬級的數據量，養成使用 explain 的習慣，關於 explain 也可以訪問：explain 讓你的 sql 寫的更踏實了解更多。

一個常識：索引並不是越多越好，索引是會降低數據寫入性能的。
索引字段長度盡量短，這樣能夠節省大量索引空間；
取消外鍵，可交由程序來約束，性能更好。
復合索引的匹配最左列規則，索引的順序和查詢條件保持一致，盡量去除沒必要的單列索引。
值分布較少的字段（不重復的較少）不適合建索引，比如像性別這種只有兩三個值的情況字段建立索引意義不大。
需要排序的字段建議加上索引，因為索引是會排序的，能提高查詢性能。
字符串字段使用前綴索引，不使用全字段索引，可大幅減小索引空間。

查詢語句優化

盡量使用短查詢替代復雜的內聯查詢。
查詢不使用 select *，盡量查詢帶索引的字段，避免回表。
盡量使用 limit 對查詢數量進行限制。
查詢字段盡量落在索引上，尤其是復合索引，更需要注意最左前綴匹配。
拆分大的 delete / insert 操作，一方面會鎖表，影響其他業務操作，還有一方面是 MySQL 對 sql 長度也是有限制的。
不建議使用 MySQL 的函數，計算等，可先由程序處理，從上面提的一些點會發現，能交由程序處理的盡量不要把壓力轉至數據庫上。因為多數的服務器性能瓶頸都在數據庫上。
查詢 count，性能：count(1) = count(*) > count(主鍵) > count(其他字段)。
查詢操作符能用 between 則不用 in，能用 in 則不用 or。
避免使用!=或＜＞、IS NULL或IS NOT NULL、IN ，NOT IN等這樣的操作符，因為這些查詢無法使用索引。
sql 盡量簡單，少用 join，不建議兩個 join 以上。

千萬級數據量

到了這個階段的數據量，數據本身已經有很大的價值了，數據除了滿足常規業務需求外，還會有一些數據分析的需求。而這個時候數據可變動性不高，基本上不會考慮修改原有結構，一般會考慮從分區，分表，分庫三方面做優化：

分區

分區是根據一定的規則，數據庫把一個表分解成多個更小的、更容易管理的部分，是一種水平划分。對應用來說是完全透明的，不影響應用的業務邏輯，即不用修改代碼。因此能存更多的數據，查詢，刪除也支持按分區來操作，從而達到優化的目的。如果有考慮分區，可以提前做准備，避免下列一些限制：

一個表最多只能有1024個分區（mysql5.6之后支持8192個分區）。但你實際操作的時候，最好不要一次性打開超過 100 個分區，因為打開分區也是有時間損耗的。
如果分區字段中有主鍵或者唯一索引列，那么所有主鍵列和唯一索引列都必須包含進來，如果表中有主鍵或唯一索引，那么分區鍵必須是主鍵或唯一索引。對於這點，筆者補充說明，筆者本人是按 created_at 所在天進行分區的，所以建表如下

CREATE TABLE `sms_record_hash` (
  ...... 省略字段定義
  PRIMARY KEY (`id`,`created_at`)  
  ......
) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4
/*!50100 PARTITION BY HASH (DAYOFYEAR(created_at))
PARTITIONS 366 */;

分區表中無法使用外鍵約束。
NULL值會使分區過濾無效，這樣會被放入默認的分區里，請千萬不要讓分區字段出現 NULL。
所有分區必須使用相同的存儲引擎。

分表

分表分水平分表和垂直分表。

水平分表即拆分成數據結構相同的各個小表，如拆分成 table1, table2...，從而緩解數據庫讀寫壓力。

垂直分表即將一些字段分出去形成一個新表，各個表數據結構不相同，可以優化高並發下鎖表的情況。

可想而知，分表的話，程序的邏輯是需要做修改的，所以，一般是在項目初期時，預見到大數據量的情況，才會考慮分表。后期階段不建議分表，成本很大。

分庫

分庫一般是主從模式，一個數據庫服務器主節點復制到一個或多個從節點多個數據庫，主庫負責寫操作，從庫負責讀操作，從而達到主從分離，高可用，數據備份等優化目的。

當然，主從模式也會有一些缺陷，主從同步延遲，binlog 文件太大導致的問題等等，這里不細講（筆者也學不動了）。

其他

冷熱表隔離。對於歷史的數據，查詢和使用的人數少的情況，可以移入另一個冷數據庫里，只提供查詢用，來緩解熱表數據量大的情況。

參考

MySQL 不同數據量的優化方案

《高性能MySQL（第3版）》

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 百萬級別數據Excel導出優化 sql語句百萬數據量優化方案 B+Tree索引為什么可以支持千萬級別數據量的查找——講講mysql索引的底層數據結構 Mysql的億級別數據優化 MySQL 百萬級數據量分頁查詢方法及其優化 MySQL百萬級數據量分頁查詢方法及其優化 MySQL 百萬級數據量分頁查詢方法及其優化 SqlServer極速刪除百萬級別數據 c#導出百萬級別數據到Excel速度優化到一分鍾之內 MySQL千萬級數據量該怎么優化，MySQL優化完美解決方案