一、什么是表分區
通俗地講表分區是將一大表,根據條件分割成若干個小表。mysql5.1開始支持數據表分區了。
如:某用戶表的記錄超過了600萬條,那么就可以根據入庫日期將表分區,也可以根據所在地將表分區。當然也可根據其他的條件分區。
二、為什么要對表進行分區
為了改善大型表以及具有各種訪問模式的表的可伸縮性,可管理性和提高數據庫效率。
分區的一些優點包括:
1)、與單個磁盤或文件系統分區相比,可以存儲更多的數據。
2)、 對於那些已經失去保存意義的數據,通常可以通過刪除與那些數據有關的分區,很容易地刪除那些數據。相反地,在某些情況下,添加新數據的過程又可以通過為那 些新數據專門增加一個新的分區,來很方便地實現。通常和分區有關的其他優點包括下面列出的這些。MySQL分區中的這些功能目前還沒有實現,但是在我們的 優先級列表中,具有高的優先級;我們希望在5.1的生產版本中,能包括這些功能。
3)、一些查詢可以得到極大的優化,這主要是借助於滿足一個給定WHERE語句的數據可以只保存在一個或多個分區內,這樣在查找時就不用查找其他剩余的分 區。因為分區可以在創建了分區表后進行修改,所以在第一次配置分區方案時還不曾這么做時,可以重新組織數據,來提高那些常用查詢的效率。
4)、涉及到例如SUM()和COUNT()這樣聚合函數的查詢,可以很容易地進行並行處理。這種查詢的一個簡單例子如 “SELECT salesperson_id, COUNT (orders) as order_total FROM sales GROUP BY salesperson_id;”。通過“並行”,這意味着該查詢可以在每個分區上同時進行,最終結果只需通過總計所有分區得到的結果。
5)、通過跨多個磁盤來分散數據查詢,來獲得更大的查詢吞吐量。
查看是否支持分區:

三、分區類型
· RANGE分區:基於屬於一個給定連續區間的列值,把多行分配給分區。
· LIST分區:類似於按RANGE分區,區別在於LIST分區是基於列值匹配一個離散值集合中的某個值來進行選擇。
· HASH分區:基於用戶定義的表達式的返回值來進行選擇的分區,該表達式使用將要插入到表中的這些行的列值進行計算。這個函數可以包含MySQL 中有效的、產生非負整數值的任何表達式。
· KEY分區:類似於按HASH分區,區別在於KEY分區只支持計算一列或多列,且MySQL 服務器提供其自身的哈希函數。必須有一列或多列包含整數值。
3.1、RANGE分區
基於屬於一個給定連續區間的列值,把多行分配給分區。
這些區間要連續且不能相互重疊,使用VALUES LESS THAN操作符來進行定義。以下是實例。
按照這種分區方案,在商店1到5工作的雇員相對應的所有行被保存在分區P0中,商店6到10的雇員保存在P1中,依次類推。注意,每個分區都是按順序進行定義,從最低到最高。這是PARTITION BY RANGE 語法的要求;在這點上,它類似於C或Java中的“switch ... case”語句。
對於包含數據(72, 'Michael', 'Widenius', '1998-06-25', NULL, 13)的一個新行,可以很容易地確定它將插入到p2分區中,但是如果增加了一個編號為第21的商店,將會發生什么呢?在這種方案下,由於沒有規則把 store_id大於20的商店包含在內,服務器將不知道把該行保存在何處,將會導致錯誤。如下圖:

要避免這種錯誤,可以通過在CREATE TABLE語句中使用一個“catchall” VALUES LESS THAN子句,該子句提供給所有大於明確指定的最高值的值:
MAXVALUE 表示最大的可能的整數值。現在,store_id 列值大於或等於16(定義了的最高值)的所有行都將保存在分區p3中。在將來的某個時候,當商店數已經增長到25, 30, 或更多 ,可以使用ALTER TABLE語句為商店21-25, 26-30,等等增加新的分區。
在幾乎一樣的結構中,你還可以基於雇員的工作代碼來分割表,也就是說,基於job_code 列值的連續區間。例如——假定2位數字的工作代碼用來表示普通(店內的)工人,三個數字代碼表示辦公室和支持人員,四個數字代碼表示管理層,你可以使用下面的語句創建該分區表:
在這個例子中, 店內工人相關的所有行將保存在分區p0中,辦公室和支持人員相關的所有行保存在分區p1中,管理層相關的所有行保存在分區p2中。
在VALUES LESS THAN 子句中使用一個表達式也是可能的。這里最值得注意的限制是MySQL 必須能夠計算表達式的返回值作為LESS THAN (<)比較的一部分;因此,表達式的值不能為NULL 。由於這個原因,雇員表的hired, separated, job_code,和store_id列已經被定義為非空(NOT NULL)。
除了可以根據商店編號分割表數據外,你還可以使用一個基於兩個DATE (日期)中的一個的表達式來分割表數據。例如,假定你想基於每個雇員離開公司的年份來分割表,也就是說,YEAR(separated)的值。實現這種分區模式的CREATE TABLE 語句的一個例子如下所示:
CREATE TABLE employees ( id INT NOT NULL, fname VARCHAR(30), lname VARCHAR(30), hired DATE NOT NULL DEFAULT '1970-01-01', separated DATE NOT NULL DEFAULT '9999-12-31', job_code INT, store_id INT ) PARTITION BY RANGE (YEAR(separated)) ( PARTITION p0 VALUES LESS THAN (1991), PARTITION p1 VALUES LESS THAN (1996), PARTITION p2 VALUES LESS THAN (2001), PARTITION p3 VALUES LESS THAN MAXVALUE );
在這個方案中,在1991年前雇佣的所有雇員的記錄保存在分區p0中,1991年到1995年期間雇佣的所有雇員的記錄保存在分區p1中, 1996年到2000年期間雇佣的所有雇員的記錄保存在分區p2中,2000年后雇佣的所有工人的信息保存在p3中。用explain可以看到分區數如下圖:

RANGE分區在如下場合特別有用:
1)、 當需要刪除一個分區上的“舊的”數據時,只刪除分區即可。 如果你使用上面最近的那個例子給出的分區方案,你只需簡單地使用 “ALTER TABLE employees DROP PARTITION p0;”來刪除所有在1991年前就已經停止工作的雇員相對應的所有行。對於有大量行的表,這比運行一個如“DELETE FROM employees WHERE YEAR (separated) <= 1990;”這樣的一個DELETE查詢要有效得多。
2)、想要使用一個包含有日期或時間值,或包含有從一些其他級數開始增長的值的列。
3)、經常運行直接依賴於用於分割表的列的查詢。例如,當執行一個如“SELECT COUNT(*) FROM employees WHERE YEAR(separated) = 2000 GROUP BY store_id;”這樣的查詢時,MySQL可以很迅速地確定只有分區p2需要掃描,這是因為余下的分區不可能包含有符合該WHERE子句的任何記錄。
注釋:這種優化還沒有在MySQL 5.1源程序中啟用,但是,有關工作正在進行中。
3.2、LIST分區
類似於按RANGE分區,區別在於LIST分區是基於列值匹配一個離散值集合中的某個值來進行選擇。
LIST分區通過使用“PARTITION BY LIST(expr)”來實現,其中“expr” 是某列值或一個基於某個列值、並返回一個整數值的表達式,然后通過“VALUES IN (value_list)”的方式來定義每個分區,其中“value_list”是一個通過逗號分隔的整數列表。
注釋:在MySQL 5.1中,當使用LIST分區時,有可能只能匹配整數列表。
====================
地區 商店ID 號
------------------------------------
北區 3, 5, 6, 9, 17
東區 1, 2, 10, 11, 19, 20
西區 4, 12, 13, 14, 18
中心區 7, 8, 15, 16
====================
要按照屬於同一個地區商店的行保存在同一個分區中的方式來分割表,可以使用下面的“CREATE TABLE”語句:
這使得在表中增加或刪除指定地區的雇員記錄變得容易起來。例如,假定西區的所有音像店都賣給了其他公司。那么與在西區音像店工作雇員相關的所有記錄 (行)可以使用查詢“ALTER TABLE employees DROP PARTITION pWest;”來進行刪除,它與具有同樣作用的DELETE (刪除)查詢“DELETE query DELETE FROM employees WHERE store_id IN (4,12,13,14,18);”比起來,要有效得多。
【要點】:如果試圖插入列值(或分區表達式的返回值)不在分區值列表中的一行時,那么“INSERT”查詢將失敗並報錯。例如,假定LIST分區的采用上面的方案,下面的查詢將失敗:
這是因為“store_id”列值21不能在用於定義分區pNorth, pEast, pWest,或pCentral的值列表中找到。要重點注意的是,LIST分區沒有類似如“VALUES LESS THAN MAXVALUE”這樣的包含其他值在內的定義。將要匹配的任何值都必須在值列表中找到。
LIST分區除了能和RANGE分區結合起來生成一個復合的子分區,與HASH和KEY分區結合起來生成復合的子分區也是可能的。
3.3.1、HASH分區
基於用戶定義的表達式的返回值來進行選擇的分區,該表達式使用將要插入到表中的這些行的列值進行計算。這個函數可以包含MySQL 中有效的、產生非負整數值的任何表達式。
要使用HASH分區來分割一個表,要在CREATE TABLE 語句上添加一個“PARTITION BY HASH (expr)”子句,其中“expr”是一個返回一個整數的表達式。它可以僅僅是字段類型為MySQL 整型的一列的名字。此外,你很可能需要在后面再添加一個“PARTITIONS num”子句,其中num 是一個非負的整數,它表示表將要被分割成分區的數量。
如果沒有包括一個PARTITIONS子句,那么分區的數量將默認為1。 例外: 對於NDB Cluster(簇)表,默認的分區數量將與簇數據節點的數量相同,
這種修正可能是考慮任何MAX_ROWS 設置,以便確保所有的行都能合適地插入到分區中。
3.3.2、LINER HASH
MySQL還支持線性哈希功能,它與常規哈希的區別在於,線性哈希功能使用的一個線性的2的冪(powers-of-two)運算法則,而常規 哈希使用的是求哈希函數值的模數。
線性哈希分區和常規哈希分區在語法上的唯一區別在於,在“PARTITION BY” 子句中添加“LINEAR”關鍵字。
假設一個表達式expr, 當使用線性哈希功能時,記錄將要保存到的分區是num 個分區中的分區N,其中N是根據下面的算法得到:
1. 找到下一個大於num.的、2的冪,我們把這個值稱為V ,它可以通過下面的公式得到:
2. V = POWER(2, CEILING(LOG(2, num)))
(例如,假定num是13。那么LOG(2,13)就是3.7004397181411。 CEILING(3.7004397181411)就是4,則V = POWER(2,4), 即等於16)。
3. 設置 N = F(column_list) & (V - 1).
4. 當 N >= num:
· 設置 V = CEIL(V / 2)
· 設置 N = N & (V - 1)
例如,假設表t1,使用線性哈希分區且有4個分區,是通過下面的語句創建的:
CREATE TABLE t1 (col1 INT, col2 CHAR(5), col3 DATE)
PARTITION BY LINEAR HASH( YEAR(col3) )
PARTITIONS 6;
現在假設要插入兩行記錄到表t1中,其中一條記錄col3列值為'2003-04-14',另一條記錄col3列值為'1998-10-19'。第一條記錄將要保存到的分區確定如下:
V = POWER(2, CEILING(LOG(2,7))) = 8
N = YEAR('2003-04-14') & (8 - 1)
= 2003 & 7
= 3
(3 >= 6 為假(FALSE): 記錄將被保存到#3號分區中)
第二條記錄將要保存到的分區序號計算如下:
V = 8
N = YEAR('1998-10-19') & (8-1)
= 1998 & 7
= 6
(6 >= 4 為真(TRUE): 還需要附加的步驟)
N = 6 & CEILING(5 / 2)
= 6 & 3
= 2
(2 >= 4 為假(FALSE): 記錄將被保存到#2分區中)
按照線性哈希分區的優點在於增加、刪除、合並和拆分分區將變得更加快捷,有利於處理含有極其大量(1000吉)數據的表。它的缺點在於,與使用
常規HASH分區得到的數據分布相比,各個分區間數據的分布不大可能均衡。
3.4、KSY分區
類似於按HASH分區,區別在於KEY分區只支持計算一列或多列,且MySQL 服務器提供其自身的哈希函數。必須有一列或多列包含整數值。
在KEY分區中使用關鍵字LINEAR和在HASH分區中使用具有同樣的作用,分區的編號是通過2的冪(powers-of-two)算法得到,而不是通過模數算法。
四、子分區
子分區其實是對每個分區表的每個分區進行再次分隔,目前只有RANGE和LIST分區的表可以再進行子分區,子分區只能是HASH或者KEY分區。子分區可以將原本的數據進行再次的分區划分。
4.1、創建子分區
子分區由兩種創建方法,一種是不定義每個子分區子分區的名字和路徑由分區決定,二是定義每個子分區的分區名和各自的路徑
1.不定義每個子分區
CREATE TABLE tb_sub (id INT, purchased DATE)
PARTITION BY RANGE( YEAR(purchased) )
SUBPARTITION BY HASH( TO_DAYS(purchased) )
SUBPARTITIONS 2 (
PARTITION p0 VALUES LESS THAN (1990),
PARTITION p1 VALUES LESS THAN (2000),
PARTITION p2 VALUES LESS THAN MAXVALUE
);
SELECT PARTITION_NAME,PARTITION_METHOD,PARTITION_EXPRESSION,PARTITION_DESCRIPTION,TABLE_ROWS,SUBPARTITION_NAME,SUBPARTITION_METHOD,SUBPARTITION_EXPRESSION FROM information_schema.PARTITIONS WHERE TABLE_SCHEMA=SCHEMA() AND TABLE_NAME='tb_sub';

2.定義每個子分區
定義子分區可以為每個子分區定義具體的分區名和分區路徑
CREATE TABLE tb_sub_ev (id INT, purchased DATE)
PARTITION BY RANGE( YEAR(purchased) )
SUBPARTITION BY HASH( TO_DAYS(purchased) ) (
PARTITION p0 VALUES LESS THAN (1990) (
SUBPARTITION s0,
SUBPARTITION s1
),
PARTITION p1 VALUES LESS THAN (2000) (
SUBPARTITION s2,
SUBPARTITION s3
),
PARTITION p2 VALUES LESS THAN MAXVALUE (
SUBPARTITION s4,
SUBPARTITION s5
)
);

3.測試數據
INSERT INTO tb_sub_ev() VALUES(1,'1989-01-01'),(2,'1989-03-19'),(3,'1989-04-19');
當往里面插入三條記錄時,其中‘1989-01-01’和‘1989-04-19’存儲在p0_s0分區中,‘1989-03-19’存儲在p0_s1當中


五、分區管理
1.增加分區
ALTER TABLE tblist ADD PARTITION (PARTITION e VALUES IN (20));
注意:不能增加包含現有任意值的分區。
2.合並分區
ALTER TABLE tblist REORGANIZE PARTITION a,b INTO (PARTITION m VALUES IN (1,5,6,2,7,8));
將分區a,b合並為分區m
注意:同RANGE分區一樣,只能合並相鄰的幾個分區,不能跨分區合並。例如不能合並a,c兩個分區,只能通過合並a,b,c

3.拆分分區
ALTER TABLE tblist REORGANIZE PARTITION a,b,c INTO
(PARTITION n VALUES IN (1,5,6,3,9,10),
PARTITION m VALUES IN (2,7,8));
ALTER TABLE tblist REORGANIZE PARTITION n INTO
( PARTITION a VALUES IN (1,5,6),
PARTITION b VALUES IN (3,9,10));

經過兩輪的拆分,枚舉列表(3,9,10)排到了(2,7,8)的前面去了;其實是這樣的,一開始合並abc成nm兩個分區由於n中的枚舉值小於m所以n在m的前面,后面再拆分n分區由於n分區在m分區的前面所以拆分出來的分區也是排在m分區的前面,由於a分區的值小於b分區的值所以a排在b的前面。
注意:1.在5.7.12版本中測試發現,合並和拆分分區重新定義的枚舉值可以不是原來的值,如果原來的枚舉值包含了數據而新合並或拆分的分區枚舉值又不不包含原來的枚舉值會造成數據丟失。雖然不知道為什么mysql不會禁止該行為,但是人為的要求無論是合並還是拆分分區枚舉值保持不變,或者只能增加不能減少,這樣能保證數據不丟失。
2.合並和拆分后的分區由於是相鄰的分區進行合並和拆分會根據原本的分區的值新的分區也會在原本的分區的順序位置。
4.刪除分區
ALTER TABLE tblist DROP PARTITION e;
注意:刪除分區同時會將分區中的數據刪除,同時枚舉的list值也被刪除,后面無法往表中插入該值的數據。
5.移除表的分區
ALTER TABLE tablename REMOVE PARTITIONING ;
注意:使用remove移除分區是僅僅移除分區的定義,並不會刪除數據和drop PARTITION不一樣,后者會連同數據一起刪除。
六、指定各分區路徑
可以針對分區表的每個分區指定各自的存儲路徑,對於innodb存儲引擎的表只能指定數據路徑,因為數據和索引是存儲在一個文件當中,對於MYISAM存儲引擎可以分別指定數據文件和索引文件,一般也只有RANGE、LIST分區、sub子分區才有可能需要單獨指定各個分區的路徑,HASH和KEY分區的所有分區的路徑都是一樣。RANGE分區指定路徑和LIST分區是一樣的,這里就拿LIST分區來做講解。
一、MYISAM存儲引擎
CREATE TABLE th (id INT, adate DATE)
engine='MyISAM'
PARTITION BY LIST(YEAR(adate))
(
PARTITION p1999 VALUES IN (1995, 1999, 2003)
DATA DIRECTORY = '/data/data'
INDEX DIRECTORY = '/data/idx',
PARTITION p2000 VALUES IN (1996, 2000, 2004)
DATA DIRECTORY = '/data/data'
INDEX DIRECTORY = '/data/idx',
PARTITION p2001 VALUES IN (1997, 2001, 2005)
DATA DIRECTORY = '/data/data'
INDEX DIRECTORY = '/data/idx',
PARTITION p2002 VALUES IN (1998, 2002, 2006)
DATA DIRECTORY = '/data/data'
INDEX DIRECTORY = '/data/idx'
);
注意:MYISAM存儲引擎的數據文件和索引文件是分庫存儲所以可以為數據文件和索引文件定義各自的路徑,INNODB存儲引擎只能定義數據路徑。
二、INNODB存儲引擎
CREATE TABLE thex (id INT, adate DATE)
engine='InnoDB'
PARTITION BY LIST(YEAR(adate))
(
PARTITION p1999 VALUES IN (1995, 1999, 2003)
DATA DIRECTORY = '/data/data',
PARTITION p2000 VALUES IN (1996, 2000, 2004)
DATA DIRECTORY = '/data/data',
PARTITION p2001 VALUES IN (1997, 2001, 2005)
DATA DIRECTORY = '/data/data',
PARTITION p2002 VALUES IN (1998, 2002, 2006)
DATA DIRECTORY = '/data/data'
);

指定路徑之后在原來的路徑中innodb生成了4個指向數據存儲的路徑文件,myisam生成了一個th.par文件指明該表是分區表,同時數據文件和索引文件指向了實際的存儲路徑。
三、子分區
1.子分區
CREATE TABLE tb_sub_dir (id INT, purchased DATE)
ENGINE='MYISAM'
PARTITION BY RANGE( YEAR(purchased) )
SUBPARTITION BY HASH( TO_DAYS(purchased) ) (
PARTITION p0 VALUES LESS THAN (1990)
(
SUBPARTITION s0
DATA DIRECTORY = '/data/data_sub1'
INDEX DIRECTORY = '/data/idx_sub1',
SUBPARTITION s1
DATA DIRECTORY = '/data/data_sub1'
INDEX DIRECTORY = '/data/idx_sub1'
),
PARTITION p1 VALUES LESS THAN (2000)
(
SUBPARTITION s2
DATA DIRECTORY = '/data/data_sub2'
INDEX DIRECTORY = '/data/idx_sub2',
SUBPARTITION s3
DATA DIRECTORY = '/data/data_sub2'
INDEX DIRECTORY = '/data/idx_sub2'
),
PARTITION p2 VALUES LESS THAN MAXVALUE
(
SUBPARTITION s4
DATA DIRECTORY = '/data/data_sub3'
INDEX DIRECTORY = '/data/idx_sub3',
SUBPARTITION s5
DATA DIRECTORY = '/data/data_sub3'
INDEX DIRECTORY = '/data/idx_sub3'
)
);

2.子分區再分
CREATE TABLE tb_sub_dirnew (id INT, purchased DATE)
ENGINE='MYISAM'
PARTITION BY RANGE( YEAR(purchased) )
SUBPARTITION BY HASH( TO_DAYS(purchased) ) (
PARTITION p0 VALUES LESS THAN (1990)
DATA DIRECTORY = '/data/data'
INDEX DIRECTORY = '/data/idx'
(
SUBPARTITION s0
DATA DIRECTORY = '/data/data_sub1'
INDEX DIRECTORY = '/data/idx_sub1',
SUBPARTITION s1
DATA DIRECTORY = '/data/data_sub1'
INDEX DIRECTORY = '/data/idx_sub1'
),
PARTITION p1 VALUES LESS THAN (2000)
DATA DIRECTORY = '/data/data'
INDEX DIRECTORY = '/data/idx'
(
SUBPARTITION s2
DATA DIRECTORY = '/data/data_sub2'
INDEX DIRECTORY = '/data/idx_sub2',
SUBPARTITION s3
DATA DIRECTORY = '/data/data_sub2'
INDEX DIRECTORY = '/data/idx_sub2'
),
PARTITION p2 VALUES LESS THAN MAXVALUE
DATA DIRECTORY = '/data/data'
INDEX DIRECTORY = '/data/idx'
(
SUBPARTITION s4
DATA DIRECTORY = '/data/data_sub3'
INDEX DIRECTORY = '/data/idx_sub3',
SUBPARTITION s5
DATA DIRECTORY = '/data/data_sub3'
INDEX DIRECTORY = '/data/idx_sub3'
)
);
也可以給個分區指定路徑后再給子分區指定路徑,但是這樣沒有意義,因為數據的存在都是由子分區決定的。
注意:
1.指定的路徑必須存在,否則分區無法創建成功
2.MYISAM存儲引擎的數據文件和索引文件是分庫存儲所以可以為數據文件和索引文件定義各自的路徑,INNODB存儲引擎只能定義數據路徑。



