(MariaDB/MySQL)之DML(1):數據插入


1.insert和replace插入數據

先解釋insert。

insert插入數據有三種語法,簡潔版如下:

1.使用values()或value():insert into table_name values(),(),(),()...

2.使用set子句:insert into table_name set column_name=value,...

3.使用select子句:insert into table_name select_statement

第二種語法是MySQL/MariaDB對標准SQL insert語句的擴展。

1.1 insert into values()

給定如下表結構:

create or replace table t(
    id int primary key,
    sex char(3) default('nv'),
    name char(20)
);

其中字段'sex'含有默認值屬性,其默認值為'nv',name字段允許NULL,這也是該字段的默認值。

用insert插入幾行數據:

insert into t values(1,'nan','longshuai1'); # 插入一行數據
insert into t values(2,'nan','longshuai2'),(3,'nv','xiaofang1'); # 一次性插入兩行數據
insert into t values(4,DEFAULT,'xiaofang2'); # sex字段使用默認值
insert into t(id,name) values(5,'xiaofang3'); # 指定插入的字段
insert into t(id,sex,name) values(6,'nv','xiaofang4'); # 等價於insert into t values()
insert into t(name,id) values('xiaofang5',7); # 指定插入的字段,且改變字段順序
insert into t value(8,'nan','longshuai3'); # 使用value,而非values

查看插入的數據:

MariaDB [test]> select * from t;
+----+------+------------+
| id | sex  | name       |
+----+------+------------+
|  1 | nan  | longshuai1 |
|  2 | nan  | longshuai2 |
|  3 | nv   | xiaofang1  |
|  4 | nv   | xiaofang2  |
|  5 | nv   | xiaofang3  |
|  6 | nv   | xiaofang4  |
|  7 | nv   | xiaofang5  |
|  8 | nan  | longshuai3 |
+----+------+------------+

注意,MySQL/MariaDB中默認變量autocommit=1,這意味着InnoDB表每次insert(以及其他的DML語句)都會自動提交事務,提交事務意味着會將臟數據刷到磁盤,這很影響插入效率。

insert into t values(),(),()一次插入多個值的效率比分多次執行insert效率要高得多。不僅不用頻繁地打開、關閉連接,還能將要插入的數據緩存起來,一定時間之后再一次性刷到磁盤。

關於如何快速插入數據到MariaDB/MySQL中,見后文:如何快速插入大量數據

1.2 insert into set

insert into set語法是使用set子句為每個字段設置值。所以,字段的順序沒有任何要求。

例如:

insert into t set name='longshuai4',id=9,sex='nan';

1.3 insert into select_statement

insert into tbl_name select_statement語法是從其他表中檢索數據,並將檢索到的數據插入到表tbl_name中。要求tbl_name必須已經存在。

例如:

insert into t select 10,'nan','longshuai5';
insert into t select 11,'nan','longshuai6' from dual;
insert into t select 12,'nv','xiaofang6' union select 13,'nan','longshuai7';

如果從其他表中檢索數據,則select檢索的字段需要和tbl_name表的字段對應。

create or replace table tx(user char(20),host char(20),password char(50));
insert into tx select user,host,password from mysql.user;

如果表tbl_name不存在,則insert into tbl_name select_statement語句會失敗。此時可以使用create table select的方式來創建表的同時插入數據。

1.4 create table select

創建表並插入數據兩種語法:

create table tbl_name select_statement
create table tbl_name as select_statement

這些語句檢索數據,並按照檢索目標字段新建一張表,表必須不能已經存在,除非使用or replace或者if not exists子句。

# 創建新表,並插入幾條數據
create or replace table t20 select user,host,password from mysql.user where user='root';

只創建表結構,不插入數據:

create table tbl_name1 like tbl_name2      # 創建完全相同的表結構
create table tbl_name1 select col1,col2,col3 from tbl_name2 where 1=0;  # where false。可以篩選部分字段作為新表的結構

例如:

create table t10 like mysql.user;   # 以mysql.user表為模板創建t10表
create table t11 select user,host,password from mysql.user where false; # 選出3個字段創建新表
create table t12(col1 char(20),col2 char(20),col3 char(50)) as  # 選出3個字段,但自定義新表的字段名稱
       select user,host,password from mysql.user where 1=0;

需要注意:

create table [as] select_statement創建表的時候,只會創建幾個字段並插入一些數據,不會復制模板表字段的屬性,例如索引、默認值、auto_increment等。

create table like創建表的時候,新表和模板表的結構會完全相同,包括字段的屬性(如default屬性、auto_increment屬性、索引等)。實際上,它是根據模板表的".frm"文件新建的。

1.5 處理鍵值重復的問題

當表中存在唯一性索引(例如primary key,unique index)時,插入的記錄如果鍵值重復,則插入操作會失敗。MariaDB中有三種方法解決重復值沖突的問題:

  1. 使用ignore關鍵字忽略所有錯誤行,使insert操作繼續插入后面的數據。
  2. 使用insert ... on duplicate key update,將有重復值的行update為新的值。
  3. 使用replace into語句替代insert into語句,將有重復值的行替換為新行。

例如,創建帶有主鍵的表,並插入幾行數據。

create or replace table t(id int primary key,sex char(3),name char(20));

insert into t values
(1,'nan','longshuai1'),(2,'nan','longshuai2'),(3,'nv','xiaofang1'),
(4,'nv','xiaofang2'),(5,'nv','xiaofang3'),(6,'nv','xiaofang4'),
(7,'nv','xiaofang5'),(8,'nan','longshuai3'),(9,'nan','longshuai4');

當插入id=5的新記錄,默認會報錯,如果是多值插入,所有的插入都會失敗。

insert into t values(5,'nv','xiaofang33'),(10,'nan','longshuai5');
ERROR 1062 (23000): Duplicate entry '5' for key 'PRIMARY'

select * from t where id=5 or id=10;
+----+------+-----------+
| id | sex  | name      |
+----+------+-----------+
|  5 | nv   | xiaofang3 |
+----+------+-----------+

以下是三種解決重復值沖突的方法。

1.ignore關鍵字,忽略將要重復的記錄。

完整語法見下文。此處只給使用示例。

insert ignore into t values(5,'nv','xiaofang33'),(10,'nan','longshuai5');
Query OK, 1 row affected, 1 warning (0.003 sec)
Records: 2  Duplicates: 1  Warnings: 1

從返回中可以看到:1 row affected, 1 warning。說明只成功插入了一行記錄,id=5的重復記錄被忽略直接跳過了。

show warnings;
+---------+------+---------------------------------------+
| Level   | Code | Message                               |
+---------+------+---------------------------------------+
| Warning | 1062 | Duplicate entry '5' for key 'PRIMARY' |
+---------+------+---------------------------------------+

select * from t where id=5 or id=10;
+----+------+------------+
| id | sex  | name       |
+----+------+------------+
|  5 | nv   | xiaofang3  |
| 10 | nan  | longshuai5 |
+----+------+------------+

2.ON DUPLICATE KEY UPDATE。

可以在INSERT語句后面加上on duplicate key update子句來修改重復值記錄。

這有兩種情況:(1)插入的記錄沒有鍵值重復沖突;(2)插入的記錄有鍵值重復沖突。

對於第一種情況,INSERT語句中帶有on duplicate key update子句並沒有任何區別,它們都只是純粹地insert數據。

對於第二種情況,INSERT語句中帶有on duplicate key update子句會更新表中原有的記錄。

例如:

# 插入無鍵值重復沖突的記錄
insert into t values(11,'nv','xiaofang4'),(12,'nan','longshuai6');
 
# 插入鍵值重復沖突的記錄id=5,更新其name
insert into t values(5,'nv','xiaofang33'),(13,'nv','xiaofang5') on duplicate key update name='xiaofang333';
Query OK, 3 rows affected (0.002 sec)
Records: 2  Duplicates: 1  Warnings: 0

3行受到影響,其中1行重復值。這里的3行記錄中,有1行是插入id=13的記錄,另兩行是因為id=5重復而受到的影響,涉及的操作是將舊id=5行update為新id=5的行。

select * from t where id=5 or id=13;
+----+------+-------------+
| id | sex  | name        |
+----+------+-------------+
|  5 | nv   | xiaofang333 |
| 13 | nv   | xiaofang5   |
+----+------+-------------+

可以在UPDATE子句中使用VALUES(col_name)函數從INSERT...ON DUPLICATE KEY UPDATE語句的INSERT部分引用列值。例如:

insert into t values(5,'nv','xiaofang33') on duplicate key update name=concat('xiaofang',values(id));

select * from t where id=5;
+----+------+-----------+
| id | sex  | name      |
+----+------+-----------+
|  5 | nv   | xiaofang5 |
+----+------+-----------+

VALUES()函數只在INSERT...ON DUPLICATE KEY UPDATE語句中有意義,其它時候會返回NULL。

INSERT...ON DUPLICATE KEY UPDATE語句的執行原理是:

(1).嘗試插入新行,判斷新行是否和表中已有記錄存在鍵值沖突。此時會觸發before insert觸發器。

(2).如果沒有沖突,就直接插入新行,此時會觸發after insert觸發器。

(3).如果有沖突,則更新舊行為新行。此時會先觸發before update觸發器,更新后觸發after update觸發器。

所以,當有重復值沖突的時候,將觸發before insert、before update和after update觸發器。詳細內容見:on duplicate key update分析觸發器觸發原理

3.replace into語句,更新重復值所在的記錄行。

replace into和insert into語法完全一樣,可以完全替代insert into語句。它們之間只有存在鍵值重復沖突的時候才有區別。

當沒有鍵值重復沖突時,replace into和insert into完全等價。

當鍵值重復沖突時,replace into語句會將表中產生沖突的記錄完全替換為新行。

replace into t values(5,'nv','xiaofang33');

select * from t where id=5;
+----+------+------------+
| id | sex  | name       |
+----+------+------------+
|  5 | nv   | xiaofang33 |
+----+------+------------+

replace into語句的執行原理是:

(1).嘗試插入新行,判斷新行是否和表中已有記錄存在鍵值沖突。此時會觸發before insert觸發器。

(2).如果沒有沖突,就直接插入新行,此時會觸發after insert觸發器。

(3).如果有沖突,則刪除舊行,並插入新行。此時會觸發before delete觸發器,刪除后觸發after delete觸發器,最后插入數據后觸發after insert觸發器。詳細內容見:replace into算法分析

1.6 完整的insert語法

INSERT [LOW_PRIORITY | DELAYED | HIGH_PRIORITY] [IGNORE]
 [INTO] tbl_name [PARTITION (partition_list)] [(col,...)]
 {VALUES | VALUE} ({expr | DEFAULT},...),(...),...
 [ ON DUPLICATE KEY UPDATE
   col=expr
     [, col=expr] ... ]
 
或:
 
INSERT [LOW_PRIORITY | DELAYED | HIGH_PRIORITY] [IGNORE]
    [INTO] tbl_name [PARTITION (partition_list)]
    SET col={expr | DEFAULT}, ...
    [ ON DUPLICATE KEY UPDATE
      col=expr
        [, col=expr] ... ]
 
或:
 
INSERT [LOW_PRIORITY | HIGH_PRIORITY] [IGNORE]
    [INTO] tbl_name [PARTITION (partition_list)] [(col,...)]
    SELECT ...
    [ ON DUPLICATE KEY UPDATE
      col=expr
        [, col=expr] ... ]

其中on duplicate key update子句是在出現重復值沖突時使用的,前文已介紹。

IGNORE關鍵字的作用是忽略錯誤。當insert語句插入記錄時,如果某行出現錯誤(例如不滿足數據類型、重復值沖突等等),則INSERT語句不會停止,而是繼續插入后面的記錄。前文已介紹通過ignore解決鍵值重復沖突的問題。

DELAYED關鍵字設置INSERT的異步插入當使用該關鍵字時,服務端立即返回OK給客戶端,然后服務端將插入操作放進隊列,等待沒有其他進程訪問該表的時候才會將隊列中的數據插入到表中。在表被頻繁訪問的時候插入數據,使用DELAYED的效率比直接使用INSERT高,但如果沒有任何進程訪問表的時候,INSERT DELAYED比直接INSERT速度慢,因為MariaDB需要額外的資源來維護這個隊列。如果某一時刻有進程訪問該表,則多個客戶端同時使用INSERT DELAYED插入數據的時候,這些數據會全部放進隊列,效率比各客戶端分開插入要高,因為隊列中的數據是成批插入的。如果隊列中的數據還沒插入到表中,突然mysqld進程死掉了,則隊列中的數據會丟失,即沒有插入到表中。

LOW_PRIORITY和HIGH_PRIORITY關鍵字的意義在見(MariaDB/MySQL)MyISAM存儲引擎讀、寫操作的優先級

2.導出、導入數據

load data infileselect into outfile語句是配套的。select into outfile語句是將檢索出來的數據按格式導出到文件中,數據遷移跨數據庫系統時,該選項很有用,因為它可以指定分隔符。load data infile是將帶有格式的數據文件導入到表中。

導出、導入數據時需要指定格式(如不指定,則使用默認)。格式涉及幾個方面:字段分隔符、行分隔符、引用符號、轉義符號。

還需注意一點,默認情況下(MySQL 5.6.34之后)這兩個語句無法執行成功,因為全局變量secure_file_priv的默認值為null,它表示禁用這兩種語句的導入導出。

所以應該將其設置為空(不指定任何值)或者指定一個目錄,將來該目錄中的所有文件都可以進行mysql file類的交互。當然,變量指定的目錄必須已經存在,且mysql系統用戶和組必須對該目錄有讀寫權限。

mkdir /data
chown -R mysql.mysql /data

這個變量是全局靜態變量,只能在mysqld實例未啟動的時候才能修改。所以將其寫入配置文件。

[mysqld]
secure-file-priv=/data
# 或者
# secure-file-priv=

查看變量。

select @@global.secure_file_priv;
+---------------------------+
| @@global.secure_file_priv |
+---------------------------+
| /data/                    |
+---------------------------+

再看這兩個語句的語法:

SELECT ... INTO OUTFILE 'file_name'
        [CHARACTER SET charset_name]
        [export_options]
 
LOAD DATA [LOW_PRIORITY | CONCURRENT] [LOCAL] INFILE 'file_name'
    [REPLACE | IGNORE]
    INTO TABLE tbl_name
    [CHARACTER SET charset_name]
        [export_options]
    [IGNORE number {LINES|ROWS}]
    [(col_name_or_user_var,...)]
    [SET col_name = expr,...]
 
 
export_options:
    [{FIELDS | COLUMNS}
        [TERMINATED BY 'string']
        [[OPTIONALLY] ENCLOSED BY 'char']
        [ESCAPED BY 'char']
    ]
    [LINES
        [STARTING BY 'string']
        [TERMINATED BY 'string']
    ]

其中'char'表示只能使用一個字符,'string'表示可以指定多個字符。

fields terminated by 'string'指定字段分隔符;enclosed by 'char'指定所有字段都使用char符號包圍,如果指定了optionally則只用在字符串和日期數據類型等字段上,默認未指定;escaped by 'char'指定轉義符。

lines starting by 'string'指定行開始符,如每行開始記錄前空一個制表符;lines terminated by 'string'為行分隔符。

要注意,在幾種情況下需要使用轉義符:數據中含有轉義符本身或者字段分隔符。當指定了字段引用符enclosed by時,如果數據中含有字段引用符,則也需要轉義,若未指定enclosed by,則默認不使用字段引用符,所以無需轉義。

以下為它們的默認值:

fileds terminated by '\t' enclosed by '' escaped by '\\'
lines terminated by '\n' starting by ''

看上去語法還挺復雜的,使用示例來說明就很清晰易懂了。

給定如下表結構和數據。

create or replace table t(id int primary key,sex char(3),name char(20),ins_day date);

insert into t values(1,'nan','longshuai1','2010-04-19'),
                    (2,'nan','longshuai2','2011-04-19'),
                    (3,'nv','xiaofang1','2012-04-19'),
                    (4,'nv','xiaofang2','2013-04-19'),
                    (5,'nv','xiaofang3','2014-04-19'),
                    (6,'nv','xiaofang4','2015-04-19'),
                    (7,'nv','tun\'er','2016-04-19'),
                    (8,'nan','longshuai3','2017-04-19');

2.1 select into outfile導出數據

使用默認設置:

select * from t into outfile '/data/t_data.sql';

\! cat /data/t_data.sql
1       nan     longshuai1      2010-04-19
2       nan     longshuai2      2011-04-19
3       nv      xiaofang1       2012-04-19
4       nv      xiaofang2       2013-04-19
5       nv      xiaofang3       2014-04-19
6       nv      xiaofang4       2015-04-19
7       nv      tun'er  2016-04-19
8       nan     longshuai3      2017-04-19

指定字段分隔符",",使用單引號包圍各字段,每行前加上制表符。

select * from t into outfile '/data/t_data1.sql' fields terminated by ',' enclosed by '\'' lines starting by '\t' terminated by '\n';

\! cat /data/t_data1.sql
        '1','nan','longshuai1','2010-04-19'
        '2','nan','longshuai2','2011-04-19'
        '3','nv','xiaofang1','2012-04-19'
        '4','nv','xiaofang2','2013-04-19'
        '5','nv','xiaofang3','2014-04-19'
        '6','nv','xiaofang4','2015-04-19'
        '7','nv','tun\'er','2016-04-19'
        '8','nan','longshuai3','2017-04-19'

2.2 load data infile導入數據

要導入格式化后的純數據,可以使用load data infile,加載純數據的插入方式比直接執行insert插入至少快20多倍。但在內部,它們其實是等價行為,load data infile也會觸發insert相關觸發器。

其中可以使用local關鍵字表示從客戶端主機讀取文件,如果沒有指定local則表示從服務端主機讀取文件。

fields和lines的相關選項和select ... into outfile是一樣的,只不過load data infile多了幾個選項。其中ignore N lines|rows表示忽略前N行數據不導入,col_name_or_user_var表示按此處給定的字段和順序來導入數據,set col_name=expr表示對列進行一些表達式運算,如給某數值字段加5,給某字符串列尾部加上@qq.com字符等。

例如要加載如下文件到test.t表中。

cat /data/t_data.txt
1       nan     longshuai1      2010-04-19
2       nan     longshuai2      2011-04-19
3       nv      xiaofang1       2012-04-19
4       nv      xiaofang2       2013-04-19
5       nv      xiaofang3       2014-04-19
6       nv      xiaofang4       2015-04-19
7       nv      tun'er  2016-04-19
8       nan     longshuai3      2017-04-19

首先刪除表中數據,再導入。

truncate test. t;
load data infile '/data/t_data.sql' into table test.t fields terminated by '\t';

將如下包含字段分隔符",",字段引用符"'",轉義符"\",行前綴"\t"的文件加載到test.t表中。

[root@xuexi ~]# cat /data/t_data1.sql
        '1','nan','longshuai1','2010-04-19'
        '2','nan','longshuai2','2011-04-19'
        '3','nv','xiaofang1','2012-04-19'
        '4','nv','xiaofang2','2013-04-19'
        '5','nv','xiaofang3','2014-04-19'
        '6','nv','xiaofang4','2015-04-19'
        '7','nv','tun\'er','2016-04-19'
        '8','nan','longshuai3','2017-04-19'

首先刪除表中數據,然后加載。

truncate test.t;
load data infile '/data/t_data1.sql' into table test.t fields terminated by ',' enclosed by '\'' escaped by '\\' lines starting by '\t' terminated by '\n';

若要忽略前兩行,則:

truncate test.t;
load data infile '/data/t_data1.sql' into table test.t fields terminated by ',' enclosed by '\'' escaped by '\\' lines starting by '\t' terminated by '\n' ignore 2 rows;

如果想在id列值加上5,則:

truncate test.t;
load data infile '/data/t_data1.sql' into table test.t fields terminated by ',' enclosed by '\'' escaped by '\\' lines starting by '\t' terminated by '\n' set id=id+5;

如果想name列后加上"@qq.com"字符串,則:

truncate test.t;
load data infile '/data/t_data1.sql' into table test.t fields terminated by ',' enclosed by '\'' escaped by '\\' lines starting by '\t' terminated by '\n' set name=concat(name,'@qq.com');

如果想同時執行上面兩個set,則:

truncate test.t;
load data infile '/data/t_data1.sql' into table test.t fields terminated by ',' enclosed by '\'' escaped by '\\' lines starting by '\t' terminated by '\n' set name=concat(name,'@qq.com'), id=id+5;

2.3 mysqldump導出數據

select into outfile功能類似的語句還有:此方法導出的數據中還包含了列名。

mysql -uroot -p123456 -e "select * from test.t">/tmp/t_data2.sql

cat /tmp/t_data2.sql
id      sex     name    ins_day
1       nan     longshuai1      2010-04-19
2       nan     longshuai2      2011-04-19
3       nv      xiaofang1       2012-04-19
4       nv      xiaofang2       2013-04-19
5       nv      xiaofang3       2014-04-19
6       nv      xiaofang4       2015-04-19
7       nv      tun'er  2016-04-19
8       nan     longshuai3      2017-04-19

雖說select ... into outfile導出數據后可修改性和加載性非常強,但是畢竟沒有導出結構。要導出結構,可以使用mysqldump的"--tab"選項,它既會導出表的結構定義語句到同表名的.sql文件中,還會導出數據到同表名的.txt文件中。

mysqldump -uroot -p123456 --tab /data test t;

ls -l /data/t.*
-rw-r--r-- 1 root  root  1408 Apr 19 14:46 /data/t.sql   # test.t表定義語句
-rw-rw-rw- 1 mysql mysql  211 Apr 19 14:46 /data/t.txt   # test.t表內數據

mysqldump的"--tab"選項同樣可以指定各種分隔符。如"--fields-terminated-by=...,--fields-enclosed-by=...,--fields-optionally-enclosed-by=...,--fields-escaped-by=..."。以下是指定字段分隔符為","。

mysqldump -uroot -p123456 --tab /data --fields-terminated-by=',' test t;

cat /data/t.txt
1,nan,longshuai1,2010-04-19
2,nan,longshuai2,2011-04-19
3,nv,xiaofang1,2012-04-19
4,nv,xiaofang2,2013-04-19
5,nv,xiaofang3,2014-04-19
6,nv,xiaofang4,2015-04-19
7,nv,tun'er,2016-04-19
8,nan,longshuai3,2017-04-19

2.4 mysqlimport導入數據

mysqlimport和load data infile的本質是一樣的。mysqlimport在執行時會像服務端發送load data infile來加載數據,並且mysqlimport支持多進程並行導入多張表的數據。

mysqlimport的語法和load data infile基本一致。不同的是它在MySQL/MariaDB的外部執行,且可以一次性並行多線程導入多張表(並非並行導入一張表),所以能更快地導入所有數據。

mysqlimport [OPTIONS] database textfile...

注意:mysqlimport只能指定數據庫名來導入,所以導入的文件名必須和數據庫中的表名相對應(文件名后綴無所謂)。例如文件名為stu2.sql,而表名為student則無法導入,它會找stu2這個表。

例如,將以下格式的文件t.txt使用mysqlimport導入到test.t表中:

[root@xuexi ~]# cat /data/t.txt
1,nan,longshuai1,2010-04-19
2,nan,longshuai2,2011-04-19
3,nv,xiaofang1,2012-04-19
4,nv,xiaofang2,2013-04-19
5,nv,xiaofang3,2014-04-19
6,nv,xiaofang4,2015-04-19
7,nv,tun'er,2016-04-19
8,nan,longshuai3,2017-04-19

[root@xuexi ~]# mysqlimport -uroot -p123456 --fields-terminated-by=',' test '/data/t.txt'

使用"--use-threads"選項可以指定導入線程數。

例如,下面指定兩個線程,導入兩張表到數據庫test庫中的t1和t2表中。

mysqlimport -uroot -p123456 --use-threads=2 --fields-terminated-by=',' test '/data/t1.txt' '/data/t2.txt'

3.如何快速插入大量數據

見我翻譯的官方手冊:https://mariadb.com/kb/zh-cn/how-to-quickly-insert-data-into-mariadb/

大致說幾點:

(1).禁用非唯一性索引,以及約束檢查。

對於插入海量數據操作而言,該行為帶來的效率提升是最大的。

ALTER TABLE table_name DISABLE KEYS;

BEGIN;
   INSERT_statement
# or
   LOAD DATA INFILE...
COMMIT;

ALTER TABLE table_name ENABLE KEYS;

多數存儲引擎(至少MyISAM和Aria是如此)的ENABLE KEYS會掃描表中的行並收集索引鍵值,然后對它們排序,最后創建索引塊。因此,先DISABLE KEYS,插入數據后啟用KEY的整體速度比每行都更新一次索引的速度至少要快一個數量級,並且所需要的buffer也更少。

一般來說,DISABLE KEYS操作的時間極快,insert操作消耗的時間則要長很多,但消耗的最長時間還是在ENABLE KEYS操作上。

需要注意的是,當INSERT和LOAD DATA INFILE的目標是一張空表時,存儲引擎會自動先DISABLE KEYS,然后插入數據,插入結束后再自動ENABLE KEYS

當插入海量數據時,花在完整性檢查上的時間也會很長。可以通過設置系統變量unique_checksforeign_key_checks來禁用UNIQUE索引以及foreign keys約束對數據的檢查:

SET @@session.unique_checks = 0;
SET @@session.foreign_key_checks = 0;

對於XtraDB/InnoDB表,可以臨時將AUTO_INCREMENT的鎖模式變量innodb_autoinc_lock_mode設置為2(見官方手冊),如下:

SET @@global.innodb_autoinc_lock_mode = 2;

該變量默認值為1,當執行大批量插入語句(如insert...selectload data infile)時,這些語句會持有表鎖直到插入語句執行完畢,而單個的insert語句則會持有粒度更細、更輕量級的互斥鎖而非表鎖。當該變量設置為0時,表示任意插入語句包括單個insert語句都會持有表鎖,直到語句執行完畢。當該變量設置為2時,表示任意語句都不會持有表鎖,而總是持有輕量級互斥鎖。

此外,如果表上有INSERT觸發器,或者PERSISTENT字段(具有確定性的計算列,每次插入數據時都會計算),可以先刪除它們,在數據插入完成之后再重建它們。

# 查看表上有哪些insert觸發器
select EVENT_OBJECT_TABLE,
        ACTION_TIMING,
        EVENT_MANIPULATION
from information_schema.triggers
where event_object_table='emp' and event_manipulation='INSERT';
 
# 查看表中是否有persistent字段
DESCRIBE table1;
+-------+-------------+------+-----+---------+------------+
| Field | Type        | Null | Key | Default | Extra      |
+-------+-------------+------+-----+---------+------------+
| a     | int(11)     | NO   |     | NULL    |            |
| b     | varchar(32) | YES  |     | NULL    |            |
| c     | int(11)     | YES  |     | NULL    | VIRTUAL    |
| d     | varchar(5)  | YES  |     | NULL    | PERSISTENT |
+-------+-------------+------+-----+---------+------------+

SHOW CREATE TABLE table1;
| table1 | CREATE TABLE `table1` (
  `a` int(11) NOT NULL,
  `b` varchar(32) DEFAULT NULL,
  `c` int(11) AS (a mod 10) VIRTUAL,
  `d` varchar(5) AS (left(b,5)) PERSISTENT
) ENGINE=MyISAM DEFAULT CHARSET=latin1 |

(2).使用load data [local] infile或者mysqlimport從文本文件中導入數據。

這是最快的數據插入方式。從客戶端上讀取文件的速度比直接在服務端上讀取文件的速度要慢一些,但差距不會很大。

LOAD DATA INFILE之所以很快,是因為:

1. 不需要解析SQL語句。

2. 讀取數據時可以一次讀取很多個數據塊。

3. 如果load data之前表是空的,則所有的非唯一索引都會先禁用,插入數據成功后才啟用。

4. 它會告訴存儲引擎先緩存一些行的數據,達到一定數量后再一次性插入到表中(至少MyISAM和Aria支持該行為)。

5. 對於空表,某些事務性引擎(如Aria)不會記錄數據插入的事務日志,因為我們可以隨時通過truncate操作來回滾。

(3).將多個insert操作放進一個事務中。所以可以設置autocommit=0或者手動開啟一個事務。

插入數據的時候使用大事務能極大提升效率,因為每次事務結束都會將內存中的數據sync到磁盤上。而刷盤操作所消耗的時間相對其他操作而言要久的多。

start transaction
insert ...
insert ...
commit
# 或者:
set @@session.autocommit=0;
insert ...
insert ...
set @@session.autocommit=1;

(4).盡量使用insert語句多值插入語法來插入數據。

即下面的第一條語句代替后3條語句:

insert into t values(),(),();
insert into t values();
insert into t values();
insert into t values();

(5).插入MyISAM表或Aria表時,使用INSERT DELAYED異步插入。

DELAYED關鍵字表示INSERT語句發送給服務端后,當語法檢查正確后,服務端會立即返回OK給客戶端表示插入成功。但實際上數據還未插入,只是放在服務端的內存隊列中。

對於正在訪問的表,使用DELAYED關鍵字后效率比一般的INSERT語句要高。但如果表目前是完全空閑的,則一般的INSERT語句效率比INSERT DELAYED效率要高,因為需要消耗一些資源去維護這個隊列。

(6).修改幾個系統變量。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM