Mysql通过Merge引擎进行分表


Mysql通过Merge引擎进行分表

使用场景

  • 数据表记录很大,单表记录会超过1000W,比如用户表等。

测试环境

  • Mysql5.7

注意

分表的id不能是自增(auto increment)的; 分表必须使用MyISAM存储引擎; 每个分表的表结构必须相同; MySQL必须具有存储分表数据文件和索引文件的目录的读写权限; 必须启用MySQL的符号链接支持功能。 总表的表结构必须与各个分表相同; 总表必须使用MRG_MyISAM存储引擎; 总表不会创建任何数据文件和索引文件; MRG文件存储总表需要映射的子表的表名; 总表本身不存储任何数据和索引; INSERT_METHOD需要设置为NO,或者不配置; 总表的id不能是自增(auto increment)的。 

MERGE分表的优点

  • MERGE分表可以解决下面的问题:
适用于存储日志数据。例如,可以将不同月份的数据存入不同的表,然后使用myisampack工具压缩数据,最后通过一张MERGE表来查询这些数据。

可以获得更快的速度。可以根据某种指标,将一张只读的大表分割成若干张小表,然后将这些小表分别放在不同的磁盘上存储。当需要读取数据时,MERGE表可以将这些小表的数据组织起来,就好像使用先前的大表一样,但是速度会快很多。

可以提高搜索效率。可以根据某种指标将一张只读的大数据表分割为若干个小表,然后根据不同的查询维度,可以得到若干种小表的组合,然后再为这些组合分别创建不同的MERGE表。例如,有一张只读的大数据表T,分割为T1、T2、T3、T4,共4张小表,有两种查询维度A和B,A可以得到小表组合T1、T2和T3,B可以得到小表组合T2、T3和T4,分别为A和B创建两个MERGE表,也就是M1和M2,这两个MERGE表分别关联的小表是存在交叠的。

可以更加有效的修复表。修复单个的小表要比修复大数据表更加容易。

多个子表映射至一个总表的速度极快。因为MERGE表本身不会存储和维护任何索引,索引都是由各个关联的子表存储和维护的,所以创建和重新映射MERGE表的速度非常快。

不受操作系统的文件大小限制。单个表会受到文件大小的限制,但是拆分成多个表,则可以无限扩容。

MERGE表还可以用来给单个表创建别名,并且几乎不会影响性能。

MERGE分表的问题

总表(MERGE表)必须使用MRG_MyISAM存储引擎,子表必须使用MyISAM存储引擎,不可避免会受到MyISAM存储引擎的限制。

MERGE表不能使用某些MyISAM特性。例如,虽然可以为子表创建全文索引,但是却不能使用全文索引,通过MERGE表查询数据。

MERGE表会使用更多的文件描述符。如果有10个客户端使用1张MERGE表,那么就需要消耗(10×10)+10个文件描述符(其中,10个客户端分别有10个数据文件描述符,并且会共享使用10个索引文件描述符)。 若使用ALTER TABLE语句修改总表的存储引擎,那么会立即丢失总表和子表的映射关系,并且会将所有子表的数据拷贝至修改后的新表。 总表和子表的主键都不能使用自动增长(auto increment)。 子表之间不能保证唯一键约束,只能保证单个子表内部的唯一性约束。 由于不能保证唯一键约束,导致REPLACE语句的行为会不可预期,INSERT ... ON DUPLICATE KEY UPDATE语句也有类似问题。因此,只能使用路由策略,对子表使用这些语句,而不能对总表使用。 子表不支持分区(Partition)。 当正在使用总表时,不能对任何子表执行ANALYZE TABLE、REPAIR TABLE、OPTIMIZE TABLE、ALTER TABLE、DROP TABLE、DELETE或TRUNCATE TABLE语句,否则会导致不可预期的结果。 总表和子表的表结构必须完全一致。 总表可以映射的所有子表的总行数上限为 264 行。 不支持INSERT DELAYED语句。 

建立数据库

    CREATE database `test` DEFAULT CHARACTER SET utf8 ;

建立子表

  • 分表必须使用MyISAM存储引擎,而MyISAM表的数据文件(.MYD文件)和索引文件(.MYI文件)是可以分散在不同的磁盘或目录上存储的。
  • 创建数据表的时候可以制定存储目录,如:指定 DATA DIRECTORY = '/home/user3' INDEX DIRECTORY = '/home/user3';
  • 在Shell中执行以下命令,创建存储子表数据和索引的目录:
# 创建存储user1表数据和索引的目录
mkdir -p /home/user1
chown -R mysql:mysql /home/user1
# 创建存储user2表数据和索引的目录
mkdir -p /home/user2
chown -R mysql:mysql /home/user2
# 创建存储user3表数据和索引的目录
mkdir -p /home/user3
chown -R mysql:mysql /home/user3
  • 启用MySQL的have_symlink选项,使得MySQL支持符号链接,否则就不能指定MyISAM表的数据文件和索引文件的存储路径。在Shell中执行以下命令,编辑my.cnf文件:
vi /usr/local/MySQL/etc/my.cnf
  • 在my.cnf文件的[mysqld]分段中添加:
symbolic-links
  • 保存my.cnf文件之后,重新启动mysql服务:
service mysqld restart
  • 创建user1、user2、user3分表,执行以下SQL:
CREATE TABLE `user1` (
 `id` INT NOT NULL,
 `user_name` VARCHAR(45) NOT NULL,
 `password` VARCHAR(45) NOT NULL,
 `create_time` TIMESTAMP NULL,
 `update_time` TIMESTAMP NULL,
  PRIMARY KEY (`id`),
  KEY `user_name` (`user_name`),
  KEY `create_time` (`create_time`)
)ENGINE = MyISAM;
CREATE TABLE `user2` like user1;
CREATE TABLE `user3` like user1;
  • 建立user总表
CREATE TABLE `users` (
 `id` INT NOT NULL,
 `user_name` VARCHAR(45) NOT NULL,
 `password` VARCHAR(45) NOT NULL,
 `create_time` TIMESTAMP NULL,
 `update_time` TIMESTAMP NULL,
  PRIMARY KEY (`id`),
  KEY `user_name` (`user_name`),
  KEY `create_time` (`create_time`)
)ENGINE = MERGE UNION = (`user1`,`user2`,`user3`);
  • or
CREATE TABLE users like user1;
ALTER TABLE users ENGINE=MERGE UNION(`user1`,`user2`,`user3`) insert_method=no;

可通过查看users表文件查看是否关联成功,如:

cat /var/lib/mysql/test/users.MRG

如何操作MERGE表的数据

  • 插入(INSERT)数据时,需要根据给定的路由策略将新数据分别插入不同的子表,此处采用对id进行模3计算(可能结果为0、1、2)来决定插入哪个子表。
  • 首先,应当获取id,这个id应当在各个子表中都是唯一的,我们需要一张表来专门创建id,执行如下SQL语句:
CREATE TABLE `test`.`user_ids` (
 `id` INT NOT NULL,
 PRIMARY KEY (`id`))
ENGINE = MyISAM;
  • 当需要插入数据时,必须由这个表来产生id值,PHP示例代码如下所示:
/** * 获取唯一的id */ function getUserID() { $sql = "insert into user_ids (id) values('')"; $this->db->query($sql); return $this->db->insertID(); } 
  • 插入一条新数据的PHP代码如下所示:
/** * 插入一条新数据 */ function testInsert() { $id = $this->getUserID(); $table_name = $this->get_Table_Name($id); $sql = "INSERT INTO {$table_name} (id, user_name, password, create_time, update_time) VALUES ('{$id}', 'ghoulich', 'password', '2016-01-01 00:00:00', '2016-01-01 00:00:00')"; $this->db->query($sql); } /** * 根据id获取表名 */ function get_Table_Name($id) { return 'user'.intval($id)%3+1; } 
  • 其他的删除(DELETE)、查询(SELECT)、修改(UPDATE)、清空(TRUNCATE)等操作都可以通过总表users完成。
  • 基于MERGE存储引擎实现的分表机制,比较适用于插入和查询频率较高的场景。由于MyISAM具有表级别的锁机制,所以不适用于更新频率较高的场景。
 

一. 什么是MERGE引擎
MERGE存储引擎把一组MyISAM数据表当做一个逻辑单元来对待,让我们可以同时对他们进行查询。

二. 应用场景
如果需要把日志纪录不停的录入MySQL数据库,并且每天、每周或者每个月都创建一个单一的表,而且要时常进行来自多个表的合计查询,MERGE表这时会非常简单有效。

 

三. 举例
假设有如下两表

1 CREATE TABLE `t1` (   
2 `id` int(10) unsigned NOT NULL AUTO_INCREMENT,   
3 `log` varchar(45) ,   
4 PRIMARY KEY (`id`) 
5 ) ENGINE=MyISAM;
 
1 CREATE TABLE `t2`(   
2 `id` int(10) unsigned NOT NULL AUTO_INCREMENT,   
3 `log` varchar(45) ,   
4 PRIMARY KEY (`id`) 
5 ) ENGINE=MyISAM;

假设t1,t2中都有如下记录

+----+-------+

| id | log   |

+----+-------+

|  1 | test1 |

|  2 | test2 |

|  3 | test3 |

+----+-------+

建立MERGE表

1 CREATE TABLE `t` (   
2 `id` int(10) unsigned NOT NULL AUTO_INCREMENT,   
3 `log` varchar(45) NOT NULL,   
4 PRIMARY KEY (`id`) 
5 ) ENGINE=MERGE UNION=(t1, t2) INSERT_METHOD=LAST;

执行select * from t;将会得到如下结果
+----+-------+
| id | log   |
+----+-------+
|  1 | test1 |
|  2 | test2 |
|  3 | test3 |
|  1 | test1 |
|  2 | test2 |
|  3 | test3|
+----+-------+

从效果上看,t1,t2的记录如同在一张表里一样被罗列了出来。当然,看了这个结果你一定会有一些疑问,在下一节里我们会慢慢解释。现在我们主要来解释一下上面MERGE表的建表语句。
1)ENGINE=MERGE
指明使用MERGE引擎,有些同学可能见到过ENGINE=MRG_MyISAM的例子,也是对的,它们是一回事。
2)UNION=(t1, t2)
指明了MERGE表中挂接了些哪表,可以通过alter table的方式修改UNION的值,以实现增删MERGE表子表的功能。
3)INSERT_METHOD=LAST
INSERT_METHOD指明插入方式,取值可以是:0 不允许插入;FIRST 插入到UNION中的第一个表; LAST 插入到UNION中的最后一个表。
4)MERGE表及构成MERGE数据表结构的各成员数据表必须具有完全一样的结构。每一个成员数据表的数据列必须按照同样的顺序定义同样的名字和类型,索引也必须按照同样的顺序和同样的方式定义。

四. Cookie问答
1)建表时UNION指明的子表如果存在相同主键的记录会怎么样?
相同主键的记录会同时存在于MERGE中,就像第三节中的例子所示。但如果继续向MERGE表中插入数据,若数据主键已存在则无法插入。换言之,MERGE表只对建表之后的操作负责。

2)若MREGE后存在重复主键,按主键查询会是什么结果?
顺序查询,只出现一条查询记录即停止。比如第三节中的例子,如果执行

1 select * from t where id=1;

只会得到结果
+----+--------+
| id | log    |
+----+--------+
|  1 | test1  |
+----+--------+

 

3)直接删除一个子表会出现什么情况,正确删除的方式是怎样的?
MERGE表会被破坏,正确方式是用alter table方式先将子表从MERGE表中去除,再删除子表。
以第三节中的例子为例,执行如下操作

1 alter table t ENGINE=MRG_MyISAM UNION=(t1) INSERT_METHOD=LAST;

可以从MERGE表中去除t2,这里你可以安全的对t2进行任何操作了。

 

4)误删子表时,如何恢复MERGE表?
误删子表时,MERGE表上将无法进行任何操作。
方法1,drop MERGE表,重建。重建时注意在UNION部分去掉误删的子表。
方法2,建立MERGE表时,会在数据库目录下生成一个.MRG文件,比如设表名为t,则文件名为t.MRG。
文件内容类似:
t1
t2
#INSERT_METHOD=LAST
指明了MGEGE表的子表构成及插入方式。
可以直接修改此文件,去掉误删表的表名。然后执行flush tables即可修复MERGE表。

 

5)MERGE的子表中之前有记录,且有自增主键,则MERGE表创建后,向其插入记录时主键以什么规则自增?
以各表中的AUTO_INCREMENT最大值做为下一次插入记录的主键值。
比如t1的自增ID至6,t2至4,则创建MERGE表后,插入的下一条记录ID将会是7

 

6)两个结构完全相同的但已存在数据的表,是否一定可以合成一个MEREGE表?
从实验的结果看,不是这样的,有时创建出的表,无法进行任何操作。
所以,推荐的使用方法是先有一个MERGE表,里面只包含一张表,当一个这个表的的大小增长到一定程度(比如200w)时,创建另一张空表,将其挂入MERGE表,然后继续插入记录。

 

7)删除MERGE表是否会对子表产生影响?
不会

 

8)MREGE表的子表的ENGIN是否有要求?
有的,必须是MyISAM表

 

附:
官方给出的关于MERGE表存在的一些问题
http://dev.mysql.com/doc/refman/5.1/zh/storage-engines.html#merge-table-problems
如果需要把日志纪录不停的录入MySQL数据库,并且每天、每周或者每个月都创建一个单一的表,而且要时常进行来自多个表的合计查询,MERGE表这时会非常简单有效。


免责声明!

本站转载的文章为个人学习借鉴使用,本站对版权不负任何法律责任。如果侵犯了您的隐私权益,请联系本站邮箱yoyou2525@163.com删除。



 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM