SQL大數據查詢優化


常寫的SQL可能主要以實現查詢出結果為主,但如果數據量一大,就會突出SQL查詢語句優化的性能獨特之處.一般的數據庫設計都會建索引查詢,這樣較全盤掃描查詢的確快了不少.下面總結下SQL查詢語句的幾個優化效率的地方,經驗有限,難免有不足.

1、對查詢進行優化,應盡量避免全表掃描,首先應考慮在 where 及 order by 涉及的列上建立索引

2、避免在索引列上使用NOT在 where 子句中對字段進行 null 值判斷,在索引列上使用NOT, NOT會產生在和在索引列上使用函數相同的影響。當Oracle遇到NOT,他就會停止使用索引轉而執行全表掃描。如:

     select id from t where num is null

     可以在num上設置默認值0,確保表中num列沒有null值,然后這樣查詢:

     select id from t where num=0  

3、應盡量避免在 where 子句中使用!=或<>操作符,否則將引擎放棄使用索引而進行全表掃描   

4、應盡量避免在 where 子句中使用 or 來連接條件,否則將導致引擎放棄使用索引而進行全表掃描,如:
     select id from t where num=10 or num=20
     可以這樣查詢:
     select id from t where num=10
     union all
     select id from t where num=20

5、in 和 not in 也要慎用,否則會導致全表掃描,如:
     select id from t where num in(1,2,3)
     對於連續的數值,能用 between 就不要用 in 了:
     select id from t where num between 1 and 3

6、下面的查詢也將導致全表掃描:
     select id from t where name like '%abc%'
     若要提高效率,可以考慮全文檢索

7、如果在 where 子句中使用參數,也會導致全表掃描。因為SQL只有在運行時才會解析局部變量,但優化程序不能將訪問計划的選擇推遲到運行時;它必須在編譯時進行選擇。然而,如果在編譯時建立訪問計划,變量的值還是未知的,因而無法作為索引選擇的輸入項。如下面語句將進行全表掃描:
     select id from t where num=@num

     可以改為強制查詢使用索引:
     select id from t with(index(索引名)) where num=@num

8、應盡量避免在 where 子句中對字段進行表達式操作,這將導致引擎放棄使用索引而進行全表掃描。如:
     select id from t where num/2=100
     應改為:
     select id from t where num=100*2

9、應盡量避免在where子句中對字段進行函數操作,這將導致引擎放棄使用索引而進行全表掃描。如:
     select id from t where substring(name,1,3)='abc'           // oracle總有的是substr函數。
     select id from t where datediff(day,createdate,'2005-11-30')=0      //查過了確實沒有datediff函數。
     應改為:
     select id from t where name like 'abc%'
     select id from t where createdate>='2005-11-30' and createdate<'2005-12-1' // 
     oracle 中時間應該把char 轉換成 date 如: createdate >= to_date('2005-11-30','yyyy-mm-dd')

10、不要在 where 子句中的“=”左邊進行函數、算術運算或其他表達式運算,否則系統將可能無法正確使用索引

11、在使用索引字段作為條件時,如果該索引是復合索引,那么必須使用到該索引中的第一個字段作為條件時才能保證系統使用該索引,否則該索引將不會被使用,並且應盡可能的讓字段順序與索引順序相一致。

12、很多時候用用EXISTS替代IN、用NOT EXISTS替代NOT IN一個好的選擇:
      select num from a where num in(select num from b)
      用下面的語句替換:

      select num from a where exists(select 1 from b where num=a.num)

13、並不是所有索引對查詢都有效,SQL是根據表中數據來進行查詢優化的,當索引列有大量數據重復時,SQL查詢可能不會去利用索引,如一表中有字段sex,male、female幾乎各一半,那么即使在sex上建了索引也對查詢效率起不了作用。

14、索引並不是越多越好,索引固然可以提高相應的 select 的效率,但同時也降低了 insert 及 update 的效率,因為 insert 或 update 時有可能會重建索引,所以怎樣建索引需要慎重考慮,視具體情況而定。一個表的索引數最好不要超過6個,若太多則應考慮一些不常使用到的列上建的索引是否有必要。

15、應盡可能的避免更新 聚集索引(clustered index)數據列,因為 聚集索引(clustered index)數據列的順序就是表記錄的物理存儲順序,一旦該列值改變將導致整個表記錄的順序的調整,會耗費相當大的資源。若應用系統需要頻繁更新聚集索引(clustered index)數據列,那么需要考慮是否應將該索引建為 聚集索引(clustered index)。

16、盡量使用數字型字段,若只含數值信息的字段盡量不要設計為字符型,這會降低查詢和連接的性能,並會增加存儲開銷。這是因為引擎在處理查詢和連接時會逐個比較字符串中每一個字符,而對於數字型而言只需要比較一次就夠了。

17、盡可能的使用 varchar/nvarchar 代替 char/nchar ,因為首先變長字段存儲空間小,可以節省存儲空間,其次對於查詢來說,在一個相對較小的字段內搜索效率顯然要高些。

18、任何地方都不要使用 select * from t ,用具體的字段列表代替“*”,不要返回用不到的任何字段。

19、盡量避免使用游標,因為游標的效率較差,如果游標操作的數據超過1萬行,那么就應該考慮改寫。

20、用EXISTS替換DISTINCT:
      當提交一個包含一對多表信息(比如部門表和雇員表)的查詢時,避免在SELECT子句中使用DISTINCT。一般可以考慮用EXIST替換, EXISTS 使查詢更為迅速,因為            RDBMS核心模塊將在子查詢的條件一旦滿足后,立刻返回結果。例子:
      (低效): SELECT DISTINCT DEPT_NO,DEPT_NAME FROM DEPT D , EMP E WHERE D.DEPT_NO = E.DEPT_NO

      (高效): SELECT DEPT_NO,DEPT_NAME FROM DEPT D WHERE EXISTS ( SELECT ‘X' FROM EMP E WHERE E.DEPT_NO = D.DEPT_NO)

21、避免在索引列上使用IS NULL和IS NOT NULL,   避免在索引中使用任何可以為空的列,Oracle將無法使用該索引。

低效: (索引失效)
SELECT … FROM DEPARTMENT WHERE DEPT_CODE IS NOT NULL; 

高效:(索引有效) 
SELECT … FROM DEPARTMENT WHERE DEPT_CODE >=0;


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM