在SQL Server中Count(*)或者Count(1)或者Count([列])或許是最常用的聚合函數。很多人其實對這三者之間是區分不清的。本文會闡述這三者的作用,關系以及背后的原理。
往常我經常會看到一些所謂的優化建議不使用Count(* )而是使用Count(1),從而可以提升性能,給出的理由是Count( *)會帶來全表掃描。而實際上如何寫Count並沒有區別。
Count(1)和Count(*)實際上的意思是,評估Count()中的表達式是否為NULL,如果為NULL則不計數,而非NULL則會計數。比如我們看代碼1所示,在Count中指定NULL(優化器不允許顯式指定NULL,因此需要賦值給變量才能指定)。
DECLARE @xx INT
SET @xx=NULL
SELECT COUNT(@xx) FROM [AdventureWorks2012].[Sales].[SalesOrderHeader]
代碼清單1.Count中指定NULL
由於所有行都為NULL,則結果全不計數為0,結果如圖1所示。
圖1.顯而易見,結果為0
因此當你指定Count(*) 或者Count(1)或者無論Count(‘anything’)時結果都會一樣,因為這些值都不為NULL,如圖2所示。
圖2.只要在Count中指定非NULL表達式,結果沒有任何區別
那Count列呢?
對於Count(列)來說,同樣適用於上面規則,評估列中每一行的值是否為NULL,如果為NULL則不計數,不為NULL則計數。因此Count(列)會計算列或這列的組合不為空的計數。
那Count(*)具體如何執行?
前面提到Count( )有不為NULL的值時,在SQL Server中只需要找出具體表中不為NULL的行數即可,也就是所有行(如果一行值全為NULL則該行相當於不存在)。那么最簡單的執行辦法是找一列NOT NULL的列,如果該列有索引,則使用該索引,當然,為了性能,SQL Server會選擇最窄的索引以減少IO。
我們在Adventureworks2012示例數據庫的[Person].[Address]表上刪除所有的非聚集索引,在ModifyDate這個數據類型為DateTime的列上建立索引,我們看執行計划,如圖3所示:
圖3.使用了CreateDate的索引
我們繼續在StateProvinceID列上建立索引,該列為INT列,占4字節,相比之前8字節 DateTime類型的列更短,因此SQL Server選擇了StateProvinceID索引。如圖4所示。
圖4.選擇了更短的StateProvinceID索引
結論是:如果該表只有一個主鍵索引,沒有任何二級索引的情況下,那么COUNT(*)和COUNT(1)都是通過通過主鍵索引來統計行數的。如果該表有二級索引,則COUNT(1)和COUNT(*)都會通過占用空間最小的字段的二級索引進行統計,
這里統計行數的操作,查詢優化器的優化方向就是選擇能夠讓IO次數最少的索引,也就是基於占用空間最小的字段所建的索引(每次IO讀取的數據量是固定的,索引占用的空間越小所需的IO次數也就越少)。而Innodb的主鍵索引是聚簇索引(包含了KEY,除了KEY之外的其他字段值,事務ID和MVCC回滾指針)所以主鍵索引一定會比二級索引(包含KEY和對應的主鍵ID)大,也就是說在有二級索引的情況下,一般COUNT()都不會通過主鍵索引來統計行數,在有多個二級索引的情況下選擇占用空間最小的。
因此,如果某個表上Count(*)用的比較多時,考慮在一個最短的列建立一個單列索引,會極大的提升性能。
在SQL語句中count函數是最常用的函數之一,count函數是用來統計表中記錄數的一個函數,
一. count(1)和count(*)的區別
1. count(1)和count(*)的作用:
都是檢索表中所有記錄行的數目,不論其是否包含null值。
2. 區別:但是count(1)比count(*)效率更高
二 . count(字段)與count(1)和count(*)的區別
count(字段)的作用是檢索表中的這個字段的非空行數,不統計這個字段值為null的記錄