mysql 大數據分頁優化

本文轉載自查看原文 2019-06-09 17:59 459 mysql

一、mysql大數據量使用limit分頁，隨着頁碼的增大，查詢效率越低下。

1. 直接用limit start, count分頁語句，也是我程序中用的方法：

select * from product limit start, count
當起始頁較小時，查詢沒有性能問題，我們分別看下從10， 100， 1000， 10000開始分頁的執行時間（每頁取20條），如下：

select * from product limit 10, 20   0.016秒
select * from product limit 100, 20   0.016秒
select * from product limit 1000, 20   0.047秒
select * from product limit 10000, 20   0.094秒

我們已經看出隨着起始記錄的增加，時間也隨着增大，這說明分頁語句limit跟起始頁碼是有很大關系的，那么我們把起始記錄改為40w看下（也就是記錄的一半左右）

select * from product limit 400000, 20 3.229秒

再看我們取最后一頁記錄的時間
select * from product limit 866613, 20 37.44秒

難怪搜索引擎抓取我們頁面的時候經常會報超時，像這種分頁最大的頁碼頁顯然這種時
間是無法忍受的。

從中我們也能總結出兩件事情：
　　1）limit語句的查詢時間與起始記錄的位置成正比
　　2）mysql的limit語句是很方便，但是對記錄很多的表並不適合直接使用。

2. 對limit分頁問題的性能優化方法

利用表的覆蓋索引來加速分頁查詢
我們都知道，利用了索引查詢的語句中如果只包含了那個索引列（覆蓋索引），那么這種情況會查詢很快。

因為利用索引查找有優化算法，且數據就在查詢索引上面，不用再去找相關的數據地址了，這樣節省了很多時間。另外Mysql中也有相關的索引緩存，在並發高的時候利用緩存就效果更好了。

在我們的例子中，我們知道id字段是主鍵，自然就包含了默認的主鍵索引。現在讓我們看看利用覆蓋索引的查詢效果如何：

這次我們之間查詢最后一頁的數據（利用覆蓋索引，只包含id列），如下：
select id from product limit 866613, 20 0.2秒
相對於查詢了所有列的37.44秒，提升了大概100多倍的速度

那么如果我們也要查詢所有列，有兩種方法，

（1）一種是id>=的形式，另一種就是利用join，看下實際情況：

　　SELECT * FROM product WHERE ID > =(select id from product limit 866613, 1) limit 20
　　查詢時間為0.2秒，簡直是一個質的飛躍啊，哈哈

（2）另一種寫法
　　SELECT * FROM product a JOIN (select id from product limit 866613, 20) b ON a.ID = b.id
　　查詢時間也很短，贊！

其實兩者用的都是一個原理嘛，所以效果也差不多

二、覆蓋索引

1、定義：

　　（1）如果一個索引包含(或覆蓋)所有需要查詢的字段的值，稱為‘覆蓋索引’。即只需掃描索引而無須回表。

　　（2）只掃描索引而無需回表的優點：
   　　　　1）索引條目通常遠小於數據行大小，只需要讀取索引，則mysql會極大地減少數據訪問量。
   　　　　 2）因為索引是按照列值順序存儲的，所以對於IO密集的范圍查找會比隨機從磁盤讀取每一行數據的IO少很多。
   　　　　 3）一些存儲引擎如myisam在內存中只緩存索引，數據則依賴於操作系統來緩存，因此要訪問數據需要一次系統調用
    　　　　4）innodb的聚簇索引，覆蓋索引對innodb表特別有用。(innodb的二級索引在葉子節點中保存了行的主鍵值，所以如果二級主鍵能夠覆蓋查詢，則可以避免對主鍵索引的二次查詢)
　（3）覆蓋索引必須要存儲索引列的值，而哈希索引、空間索引和全文索引不存儲索引列的值，所以mysql只能用B-tree索引做覆蓋索引。

當發起一個被索引覆蓋的查詢(也叫作索引覆蓋查詢)時，在EXPLAIN的Extra列可以看到“Using index”的信息