認識SQLServer索引以及單列索引和多列索引的不同


 一、索引的概念

  索引的用途:我們對數據查詢及處理速度已成為衡量應用系統成敗的標准,而采用索引來加快數據處理速度通常是最普遍采用的優化方法。

  索引是什么:數據庫中的索引類似於一本書的目錄,在一本書中使用目錄可以快速找到你想要的信息,而不需要讀完全書。在數據庫中,數據庫程序使用索引可以重啊到表中的數據,而不必掃描整個表。書中的目錄是一個字詞以及各字詞所在的頁碼列表,數據庫中的索引是表中的值以及各值存儲位置的列表。

  索引的利弊:查詢執行的大部分開銷是I/O,使用索引提高性能的一個主要目標是避免全表掃描,因為全表掃描需要從磁盤上讀取表的每一個數據頁,如果有索引指向數據值,則查詢只需要讀少數次的磁盤就行啦。所以合理的使用索引能加速數據的查詢。但是索引並不總是提高系統的性能,帶索引的表需要在數據庫中占用更多的存儲空間,同樣用來增刪數據的命令運行時間以及維護索引所需的處理時間會更長。所以我們要合理使用索引,及時更新去除次優索引。

 

 二、數據表的基本結構

  一個新表被創建之時,系統將在磁盤中分配一段以8K為單位的連續空間,當字段的值從內存寫入磁盤時,就在這一既定空間隨機保存,當一個 8K用完的時候,數據庫指針會自動分配一個8K的空間。這里,每個8K空間被稱為一個數據頁(Page),又名頁面或數據頁面,並分配從0-7的頁號, 每個文件的第0頁記錄引導信息,叫文件頭(File header);每8個數據頁(64K)的組合形成擴展區(Extent),稱為擴展。全部數據頁的組合形成堆(Heap)。

  SQLS規定行不能跨越數據頁,所以,每行記錄的最大數據量只能為8K。這就是char和varchar這兩種字符串類型容量要限制在8K以內的 原因,存儲超過8K的數據應使用text類型,實際上,text類型的字段值不能直接錄入和保存,它只是存儲一個指針,指向由若干8K的文本數據頁所組成 的擴展區,真正的數據正是放在這些數據頁中。 

頁面有空間頁面和數據頁面之分。  

  當一個擴展區的8個數據頁中既包含了空間頁面又包括了數據或索引頁面時,稱為混合擴展(Mixed Extent),每張表都以混合擴展開始;反之,稱為一致擴展(Uniform Extent),專門保存數據及索引信息。 

  表被創建之時,SQLS在混合擴展中為其分配至少一個數據頁面,隨着數據量的增長,SQLS可即時在混合擴展中分配出7個頁面,當數據超過8個頁面時,則從一致擴展中分配數據頁面。  

  空間頁面專門負責數據空間的分配和管理,包括:PFS頁面(Page free space):記錄一個頁面是否已分配、位於混合擴展還是一致擴展以及頁面上還有多少可用空間等信息;GAM頁面(Global allocation map)和SGAM頁面(Secodary global allocation map):用來記錄空閑的擴展或含有空閑頁面的混合擴展的位置。SQLS綜合利用這三種類型的頁面文件在必要時為數據表創建新空間;  

數據頁或索引頁則專門保存數據及索引信息,SQLS使用4種類型的數據頁面來管理表或索引:它們是IAM頁、數據頁、文本/圖像頁和索引頁。 

  在WINDOWS中,我們對文件執行的每一步操作,在磁盤上的物理位置只有系統(system)才知道;SQL SERVER沿襲了這種工作方式,在插入數據的過程中,不但每個字段值在數據頁面中的保存位置是隨機的,而且每個數據頁面在“堆”中的排列位置也只有系統 (system)才知道。  

  這是為什么呢?眾所周知,OS之所以能管理DISK,是因為在系統啟動時首先加載了文件分配表:FAT(File Allocation Table),正是由它管理文件系統並記錄對文件的一切操作,系統才得以正常運行;同理,作為管理系統級的SQL SERVER,也有這樣一張類似FAT的表存在,它就是索引分布映像頁:IAM(Index Allocation Map)。  

IAM的存在,使SQLS對數據表的物理管理有了可能。  

  IAM頁從混合擴展中分配,記錄了8個初始頁面的位置和該擴展區的位置,每個IAM頁面能管理512,000個數據頁面,如果數據量太 大,SQLS也可以增加更多的IAM頁,可以位於文件的任何位置。第一個IAM頁被稱為FirstIAM,其中記錄了以后的IAM頁的位置。  

  數據頁和文本/圖像頁互反,前者保存非文本/圖像類型的數據,因為它們都不超過8K的容量,后者則只保存超過8K容量的文本或圖像類型數據。而索 引頁顧名思義,保存的是與索引結構相關的數據信息。了解頁面的問題有助我們下一步准確理解SQLS維護索引的方式,如頁拆分、填充因子等。 
 
 三、頁分裂

  一半的數據將保留在老頁面,而另一半將放入新頁面,並且新頁面可能被分配到任何可用的頁。所以,頻繁頁分裂,后果很嚴重,將使物理表產生大量數據碎片,導致直接造成I/O效率的急劇下降,最后,停止SQLS的運行並重建索引將是我們的唯一選擇!

 

 四、填充因子

  索引的一個特性,定義該索引每頁上的可用空間量。FILLFACTOR(填充因子)適應以后表數據的擴展並減小了頁拆分的可能性。填充因子是從0到100的百分比數值,設為100時表示將數據頁填滿。只有當不會對數據進行更改時(例如 只讀表中)才用此設置。值越小則數據頁上的空閑空間越大,這樣可以減少在索引增長過程中進行頁分裂的需要,但這一操作需要占用更多的硬盤空間。填充因子指定不當,會降低數據庫的讀取性能,其降低量與填充因子設置值成反比。

 

 五、索引的分類

SQL SERVER中有多種索引類型。

按存儲結構區分:“聚集索引(又稱聚類索引,簇集索引)”,“分聚集索引(非聚類索引,非簇集索引)”

按數據唯一性區分:“唯一索引”,“非唯一索引”

按鍵列個數區分:“單列索引”,“多列索引”。

 

 六、聚集索引

  聚集索引是一種對磁盤上實際數據重新組織以按指定的一列或多列值排序。像我們用到的漢語字典,就是一個聚集索引,比如要查“張”,我們自然而然就翻到字典的后面百十頁。然后根據字母順序跟查找出來。這里用到微軟的平衡二叉樹算法,即首先把書翻到大概二分之一的位置,如果要找的頁碼比該頁的頁碼小,就把書向前翻到四分之一處,否則,就把書向后翻到四分之三的地方,依此類推,把書頁續分成更小的部分,直至正確的頁碼。

  由於聚集索引是給數據排序,不可能有多種排法,所以一個表只能建立一個聚集索引。科學統計建立這樣的索引需要至少相當與該表120%的附加空間,用來存放該表的副本和索引中間頁,但是他的性能幾乎總是比其它索引要快。

  由於在聚集索引下,數據在物理上是按序排列在數據頁上的,重復值也排在一起,因而包含范圍檢查(bentween,<,><=,>=)或使用group by 或order by的查詢時,一旦找到第一個鍵值的行,后面都將是連在一起,不必在進一步的搜索,避免啦大范圍的掃描,可以大大提高查詢速度。

 

 七、非聚集索引

  sqlserver默認情況下建立的索引是非聚集索引,他不重新組織表中的數據,而是對每一行存儲索引列值並用一個指針指向數據所在的頁面。他像漢語字典中的根據‘偏旁部首’查找要找的字,即便對數據不排序,然而他擁有的目錄更像是目錄,對查取數據的效率也是具有的提升空間,而不需要全表掃描。

一個表可以擁有多個非聚集索引,每個非聚集索引根據索引列的不同提供不同的排序順序。

 

 八、索引的使用

1、索引的創建 

在SQL Server中創建索引的語法如下:

CREATE [UNIQUE] [CLUSTERED| NONCLUSTERED ]
INDEX index_name ON { table | view } ( column [ ASC | DESC ] [ ,...n ] )
[with[PAD_INDEX][[,]FILLFACTOR=fillfactor]
[[,]IGNORE_DUP_KEY]
[[,]DROP_EXISTING]
[[,]STATISTICS_NORECOMPUTE]
[[,]SORT_IN_TEMPDB]
]
[ ON filegroup ] 

CREATE INDEX命令創建索引各參數說明如下:

UNIQUE:用於指定為表或視圖創建唯一索引,即不允許存在索引值相同的兩行。

CLUSTERED:用於指定創建的索引為聚集索引。

NONCLUSTERED:用於指定創建的索引為非聚集索引。

index_name:用於指定所創建的索引的名稱。

table:用於指定創建索引的表的名稱。

view:用於指定創建索引的視圖的名稱。

ASC|DESC:用於指定具體某個索引列的升序或降序排序方向。

Column:用於指定被索引的列。

PAD_INDEX:用於指定索引中間級中每個頁(節點)上保持開放的空間。

FILLFACTOR = fillfactor:用於指定在創建索引時,每個索引頁的數據占索引頁大小的百分比,fillfactor的值為1到100。

IGNORE_DUP_KEY:用於控制當往包含於一個唯一聚集索引中的列中插入重復數據時SQL Server所作的反應。

DROP_EXISTING:用於指定應刪除並重新創建已命名的先前存在的聚集索引或者非聚集索引。

STATISTICS_NORECOMPUTE:用於指定過期的索引統計不會自動重新計算。

SORT_IN_TEMPDB:用於指定創建索引時的中間排序結果將存儲在 tempdb 數據庫中。

ON filegroup:用於指定存放索引的文件組。

 

2、索引的管理

Exec sp_helpindex BigData   --查看索引定義

Exec sp_rename 'BigData.idx_mobiel','idx_big_mobiel'  --將索引名由'idx_mobiel' 改為'idx_big_mobiel'

drop index BigData.idx_big_mobiel  --刪除bigdata表中的idx_big_mobiel索引

dbcc showcontig(bigdata,idx_mobiel) --檢查bigdata表中索引idx_mobiel的碎片信息

dbcc indexdefrag(Test,bigdata,idx_mobiel)  --整理test數據庫中bigdata表的索引idx_mobiel上的碎片

update statistics bigdata  --更新bigdata表中的全部索引的統計信息

 

3、索引的設計原則

對於一張表來說索引的有無和建立什么樣的索引,要取決與where字句和Join表達式中。

一般來說建立索引的原則包括以下內容:

  • 系統一般會給逐漸字段自動建立聚集索引。
  • 有大量重復值且經常有范圍查詢和排序、分組的列,或者經常頻繁訪問的列,考慮建立聚集索引。
  • 在一個經常做插入操作的表中建立索引,應使用fillfactor(填充因子)來減少頁分裂,同時提高並發度降低死鎖的發生。如果在表為只讀表,填充因子可設為100.
  • 在選擇索引鍵時,盡可能采用小數據類型的列作為鍵以使每個索引頁能容納盡可能多的索引鍵和指針,通過這種方式,可使一個查詢必需遍歷的索引頁面降低到最小,此外,盡可能的使用整數做為鍵值,因為整數的訪問速度最快。

 

 九、單列索引和多列索引的比較

   在SQL Server中,索引分為兩種,一種是單列索引,一種是多列索引。多列索引創建方法類似單列索引,只是擁有多個列,如圖:

我們創建了IX_StuID_StuName多列索引,其中包含表中的兩列StuId和StuName.

假設有這樣一個people表: 

CREATE TABLE People( 
   PeopleId INT NOT NULL, 
   FirstName NVARCHAR(50) NOT NULL, 
   LastName NVARCHAR(50) NOT NULL, 
   Age INT NOT NULL, 
   PRIMARY KEY (PeopleId) 
 );

下面是我們插入到這個people表的數據:
  表中有四個名字為“Mikes”的人(其中兩個姓Sullivans,兩個姓McConnells),有兩個年齡為17歲的人,還有一個名字與眾不同的Joe Smith。 這個表的主要用途是根據指定的用戶姓、名以及年齡返回相應的peopleid。

例如,我們可能需要查找姓名為MikeSullivan、年齡17歲用戶的peopleid,SQL語句為

 SELECT peopleid FROM people WHERE firstname='Mike' AND lastname='Sullivan' AND age=17;

  首先,我們可以考慮在單個列上創建索引,比如firstname、lastname或者age列。如果我們創建firstname列的索引,數據庫將通過這個索引迅速把搜索范圍限制到那些firstname='Mike'的記錄,然后再在這個“中間結果集”上進行其他條件的搜索:它首先排除那些lastname不等於“Sullivan”的記錄,然后排除那些age不等於17的記錄。當記錄滿足所有搜索條件之后,數據庫就返回最終的搜索結果。
  由於建立了firstname列的索引,與執行表的完全掃描相比,MySQL的效率提高了很多,但我們要求MySQL掃描的記錄數量仍舊遠遠超過了實際所需要的。雖然我們可以刪除firstname列上的索引,再創建lastname或者age列的索引,但總地看來,不論在哪個列上創建索引搜索效率仍舊相似。
  為了提高搜索效率,我們需要考慮運用多列索引。如果為firstname、lastname和age這三個列創建一個多列索引,數據庫只需一次檢索就能夠找出正確的結果!
  那么,如果在firstname、lastname、age這三個列上分別創建單列索引,效果是否和創建一個firstname、lastname、age的多列索引一樣呢?

  答案是否定的,兩者完全不同。當我們執行查詢的時候,MySQL只能使用一個索引。如果你有三個單列的索引,MySQL會試圖選擇一個限制最嚴格的索引。但是,即使是限制最嚴格的單列索引,它的限制能力也肯定遠遠低於firstname、lastname、age這三個列上的多列索引。

  多列索引還有另外一個優點,它通過稱為最左前綴(Leftmost Prefixing)的概念體現出來。繼續考慮前面的例子,現在我們有一個firstname、lastname、age列上的多列索引,我們稱這個索引為fname_lname_age。當搜索條件是以下各種列的組合時,數據庫將使用fname_lname_age索引:
firstname,lastname,age
firstname,lastname
firstname
從另一方面理解,它相當於我們創建了(firstname,lastname,age)、(firstname,lastname)以及(firstname)這些列組合上的索引。下面這些查詢都能夠使用這個fname_lname_age索引:

SELECT peopleid FROM people WHERE firstname='Mike' AND lastname='Sullivan' AND age='17'; 
SELECT peopleid FROM people WHERE firstname='Mike' AND lastname='Sullivan'; 
SELECT peopleid FROM people WHERE firstname='Mike'; 

下面這些查詢不能夠使用這個fname_lname_age索引:

SELECT peopleid FROM people Where lastname='Sullivan'; 
SELECT peopleid FROM people Where age='17'; 
SELECT peopleid FROM people Where lastname='Sullivan' AND age='17';

 

免責聲明: 本文大部分內容來自http://www.cnblogs.com/knowledgesea/p/3672099.html,單列和多列索引介紹來自網絡。

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM