范式的作用:消除數據冗余、更新異常、插入異常和刪除異常。
1NF
如果一個關系模式R的所有屬性都是不可分的基本數據項,則R∈1NF。
數據庫表中的字段都是單一屬性的,不可再分。這個單一屬性由基本類型構成,包括整型、實數、字符型、邏輯型、日期型等。
不滿足第一范式就不是關系型數據庫!
2NF
若關系模式R∈1NF,並且每一個非主屬性都完全函數依賴於R的碼,則R∈2NF
表中的屬性必須完全依賴於全部主鍵,而不是部分主鍵。所以只有一個主鍵的表如果符合第一范式,那一定是第二范式。
3NF
在第二范式的基礎上,數據表中如果不存在非關鍵字段對任一候選關鍵字段的傳遞函數依賴則符合第三范式。
所謂傳遞函數依賴,指的是如果存在"A → B → C"的決定關系,則C傳遞函數依賴於A。
BCNF(鮑依斯-科得范式)
在第三范式的基礎上,數據庫表中如果不存在任何字段對任一候選關鍵字段的傳遞函數依賴則符合BC范式。
設計范式是不是很難懂呢?非也,大學教材上給我們一堆數學公式我們當然看不懂,也記不住。所以我們很多人就根本不按照范式來設計數據庫。
實質上,設計范式用很形象、很簡潔的話語就能說清楚,道明白。本文將對范式進行通俗地說明,並以筆者曾經設計的一個簡單論壇的數據庫為例來講解怎樣將這些范式應用於實際工程。
范式說明
第一范式(1NF):數據庫表中的字段都是單一屬性的,不可再分。這個單一屬性由基本類型構成,包括整型、實數、字符型、邏輯型、日期型等。
例如,如下的數據庫表是符合第一范式:
字段1 | 字段2 | 字段3 | 字段4 |
? | ? | ? | ? |
字段1 | 字段2 | 字段3 | 字段4 | |
? | ? | 字段3.1 | 字段3.2 | ? |
很顯然,在當前的任何關系數據庫管理系統(DBMS)中,傻瓜也不可能做出不符合第一范式的數據庫,因為這些DBMS不允許你把數據庫表的一列再分成二列或多列。因此,你想在現有的DBMS中設計出不符合第一范式的數據庫都是不可能的。
第二范式(2NF):數據庫表中不存在非關鍵字段對任一候選關鍵字段的部分函數依賴(部分函數依賴指的是存在組合關鍵字中的某些字段決定非關鍵字段的情況),也即所有非關鍵字段都完全依賴於任意一組候選關鍵字。
假定選課關系表為SelectCourse(學號, 姓名, 年齡, 課程名稱, 成績, 學分),關鍵字為組合關鍵字(學號, 課程名稱),因為存在如下決定關系:
(學號, 課程名稱) → (姓名, 年齡, 成績, 學分)
這個數據庫表不滿足第二范式,因為存在如下決定關系:
(課程名稱) → (學分)
(學號) → (姓名, 年齡)
即存在組合關鍵字中的字段決定非關鍵字的情況。
由於不符合2NF,這個選課關系表會存在如下問題:
(1) 數據冗余:
同一門課程由n個學生選修,"學分"就重復n-1次;同一個學生選修了m門課程,姓名和年齡就重復了m-1次。
(2) 更新異常:
若調整了某門課程的學分,數據表中所有行的"學分"值都要更新,否則會出現同一門課程學分不同的情況。
(3) 插入異常:
假設要開設一門新的課程,暫時還沒有人選修。這樣,由於還沒有"學號"關鍵字,課程名稱和學分也無法記錄入數據庫。
(4) 刪除異常:
假設一批學生已經完成課程的選修,這些選修記錄就應該從數據庫表中刪除。但是,與此同時,課程名稱和學分信息也被刪除了。很顯然,這也會導致插入異常。
把選課關系表SelectCourse改為如下三個表:
學生:Student(學號, 姓名, 年齡);
課程:Course(課程名稱, 學分);
選課關系:SelectCourse(學號, 課程名稱, 成績)。
這樣的數據庫表是符合第二范式的,消除了數據冗余、更新異常、插入異常和刪除異常。
另外,所有單關鍵字的數據庫表都符合第二范式,因為不可能存在組合關鍵字。
第三范式(3NF):在第二范式的基礎上,數據表中如果不存在非關鍵字段對任一候選關鍵字段的傳遞函數依賴則符合第三范式。所謂傳遞函數依賴,指的是如果存在"A → B → C"的決定關系,則C傳遞函數依賴於A。因此,滿足第三范式的數據庫表應該不存在如下依賴關系:
關鍵字段 → 非關鍵字段x → 非關鍵字段y
假定學生關系表為Student(學號, 姓名, 年齡, 所在學院, 學院地點, 學院電話),關鍵字為單一關鍵字"學號",因為存在如下決定關系:
(學號) → (姓名, 年齡, 所在學院, 學院地點, 學院電話)
這個數據庫是符合2NF的,但是不符合3NF,因為存在如下決定關系:
(學號) → (所在學院) → (學院地點, 學院電話)
即存在非關鍵字段"學院地點"、"學院電話"對關鍵字段"學號"的傳遞函數依賴。
它也會存在數據冗余、更新異常、插入異常和刪除異常的情況,讀者可自行分析得知。
把學生關系表分為如下兩個表:
學生:(學號, 姓名, 年齡, 所在學院);
學院:(學院, 地點, 電話)。
這樣的數據庫表是符合第三范式的,消除了數據冗余、更新異常、插入異常和刪除異常。
鮑依斯-科得范式(BCNF):在第三范式的基礎上,數據庫表中如果不存在任何字段對任一候選關鍵字段的傳遞函數依賴則符合第三范式。
假設倉庫管理關系表為StorehouseManage(倉庫ID, 存儲物品ID, 管理員ID, 數量),且有一個管理員只在一個倉庫工作;一個倉庫可以存儲多種物品。這個數據庫表中存在如下決定關系:
(倉庫ID, 存儲物品ID) →(管理員ID, 數量)
(管理員ID, 存儲物品ID) → (倉庫ID, 數量)
所以,(倉庫ID, 存儲物品ID)和(管理員ID, 存儲物品ID)都是StorehouseManage的候選關鍵字,表中的唯一非關鍵字段為數量,它是符合第三范式的。但是,由於存在如下決定關系:
(倉庫ID) → (管理員ID)
(管理員ID) → (倉庫ID)
即存在關鍵字段決定關鍵字段的情況,所以其不符合BCNF范式。它會出現如下異常情況:
(1) 刪除異常:
當倉庫被清空后,所有"存儲物品ID"和"數量"信息被刪除的同時,"倉庫ID"和"管理員ID"信息也被刪除了。
(2) 插入異常:
當倉庫沒有存儲任何物品時,無法給倉庫分配管理員。
(3) 更新異常:
如果倉庫換了管理員,則表中所有行的管理員ID都要修改。
把倉庫管理關系表分解為二個關系表:
倉庫管理:StorehouseManage(倉庫ID, 管理員ID);
倉庫:Storehouse(倉庫ID, 存儲物品ID, 數量)。
這樣的數據庫表是符合BCNF范式的,消除了刪除異常、插入異常和更新異常。
范式的目標
應用數據庫范式可以帶來許多好處,但是最重要的好處歸結為三點:
1.減少數據冗余(這是最主要的好處,其他好處都是由此而附帶的)
2.消除異常(插入異常,更新異常,刪除異常)
3.讓數據組織的更加和諧…
但劍是雙刃的,應用數據庫范式同樣也會帶來弊端,這會在文章后面說到。
什么是范式
簡單的說,范式是為了消除重復數據減少冗余數據,從而讓數據庫內的數據更好的組織,讓磁盤空間得到更有效利用的一種標准化標准,滿足高等級的范式的先決條件是滿足低等級范式。(比如滿足2nf一定滿足1nf)
DEMO
讓我們先從一個未經范式化的表看起,表如下:
先對表做一個簡單說明,employeeId是員工id,departmentName是部門名稱,job代表崗位,jobDescription是崗位說明,skill是員工技能,departmentDescription是部門說明,address是員工住址
對表進行第一范式(1NF)
如果一個關系模式R的所有屬性都是不可分的基本數據項,則R∈1NF。
簡單的說,第一范式就是每一個屬性都不可再分。不符合第一范式則不能稱為關系數據庫。對於上表,不難看出Address是可以再分的,比如”北京市XX路XX小區XX號”,着顯然不符合第一范式,對其應用第一范式則需要將此屬性分解到另一個表,如下:
對表進行第二范式(2NF)
若關系模式R∈1NF,並且每一個非主屬性都完全函數依賴於R的碼,則R∈2NF
簡單的說,是表中的屬性必須完全依賴於全部主鍵,而不是部分主鍵.所以只有一個主鍵的表如果符合第一范式,那一定是第二范式。這樣做的目的是進一步減少插入異常和更新異常。在上表中,departmentDescription是由主鍵DepartmentName所決定,但卻不是由主鍵EmployeeID決定,所以departmentDescription只依賴於兩個主鍵中的一個,故要departmentDescription對主鍵是部分依賴,對其應用第二范式如下表:
對表進行第三范式(3NF)
關系模式R<U,F> 中若不存在這樣的碼X、屬性組Y及非主屬性Z(Z Y), 使得X→Y,Y→Z,成立,則稱R<U,F> ∈ 3NF。
簡單的說,第三范式是為了消除數據庫中關鍵字之間的依賴關系,在上面經過第二范式化的表中,可以看出jobDescription(崗位職責)是由job(崗位)所決定,則jobDescription依賴於job,可以看出這不符合第三范式,對表進行第三范式后的關系圖為:
上表中,已經不存在數據庫屬性互相依賴的問題,所以符合第三范式
對表進行BC范式(BCNF)
設關系模式R<U,F>∈1NF,如果對於R的每個函數依賴X→Y,若Y不屬於X,則X必含有候選碼,那么R∈BCNF。
簡單的說,bc范式是在第三范式的基礎上的一種特殊情況,既每個表中只有一個候選鍵(在一個數據庫中每行的值都不相同,則可稱為候選鍵),在上面第三范式的noNf表中可以看出,每一個員工的email都是唯一的(難道兩個人用同一個email??)則,此表不符合bc范式,對其進行bc范式化后的關系圖為:
對表進行第四范式(4NF)
關系模式R<U,F>∈1NF,如果對於R的每個非平凡多值依賴X→→Y(Y X),X都含有候選碼,則R∈4NF。
簡單的說,第四范式是消除表中的多值依賴,也就是說可以減少維護數據一致性的工作。對於上面bc范式化的表中,對於員工的skill,兩個可能的值是”C#,sql,javascript”和“C#,UML,Ruby”,可以看出,這個數據庫屬性存在多個值,這就可能造成數據庫內容不一致的問題,比如第一個值寫的是”C#”,而第二個值寫的是”C#.net”,解決辦法是將多值屬性放入一個新表,則第四范式化后的關系圖如下:
而對於skill表則可能的值為:
總結
上面對於數據庫范式進行分解的過程中不難看出,應用的范式登記越高,則表越多。表多會帶來很多問題:
1 查詢時要連接多個表,增加了查詢的復雜度
2 查詢時需要連接多個表,降低了數據庫查詢性能
而現在的情況,磁盤空間成本基本可以忽略不計,所以數據冗余所造成的問題也並不是應用數據庫范式的理由。
因此,並不是應用的范式越高越好,要看實際情況而定。第三范式已經很大程度上減少了數據冗余,並且減少了造成插入異常,更新異常,和刪除異常了。我個人觀點認為,大多數情況應用到第三范式已經足夠,在一定情況下第二范式也是可以的。