數據庫 函數依賴及范式(最通俗易懂)


一、基礎概念
  要理解范式,首先必須對知道什么是關系數據庫,如果你不知道,我可以簡單的不能再簡單的說一下:關系數據庫就是用二維表來保存數據。表和表之間可以……(省略10W字)。
  然后你應該理解以下概念:
  實體:現實世界中客觀存在並可以被區別的事物。比如“一個學生”、“一本書”、“一門課”等等。值得強調的是這里所說的“事物”不僅僅是看得見摸得着的“東西”,它也可以是虛擬的,不如說“老師與學校的關系”。
  屬性:教科書上解釋為:“實體所具有的某一特性”,由此可見,屬性一開始是個邏輯概念,比如說,“性別”是“人”的一個屬性。在關系數據庫中,屬性又是個物理概念,屬性可以看作是“表的一列”。
  元組:表中的一行就是一個元組。
  分量:元組的某個屬性值。在一個關系數據庫中,它是一個操作原子,即關系數據庫在做任何操作的時候,屬性是“不可分的”。否則就不是關系數據庫了。
  碼:表中可以唯一確定一個元組的某個屬性(或者屬性組),如果這樣的碼有不止一個,那么大家都叫候選碼,我們從候選碼中挑一個出來做老大,它就叫主碼。
  全碼:如果一個碼包含了所有的屬性,這個碼就是全碼。
  主屬性:一個屬性只要在任何一個候選碼中出現過,這個屬性就是主屬性。
  非主屬性:與上面相反,沒有在任何候選碼中出現過,這個屬性就是非主屬性。
  外碼:一個屬性(或屬性組),它不是碼,但是它別的表的碼,它就是外碼。

二、6個范式
  好了,上面已經介紹了我們掌握范式所需要的全部基礎概念,下面我們就來講范式。首先要明白,范式的包含關系。一個數據庫設計如果符合第二范式,一定也符合第一范式。如果符合第三范式,一定也符合第二范式…

第一范式(1NF):屬性不可分。

  在前面我們已經介紹了屬性值的概念,我們說,它是“不可分的”。而第一范式要求屬性也不可分。那么它和屬性值不可分有什么區別呢?給一個例子:

name tel age
大寶 13612345678 22
小明 13988776655 010-1234567 21

Ps:這個表中,屬性值“分”了。

name tel age
手機 座機
大寶 13612345678 021-9876543 22
小明 13988776655 010-1234567 21

Ps:這個表中,屬性 “分”了。

  這兩種情況都不滿足第一范式。不滿足第一范式的數據庫,不是關系數據庫!所以,我們在任何關系數據庫管理系統中,做不出這樣的“表”來。(也就是說,只要是關系數據庫就是第一范式

第二范式(2NF):符合1NF,並且,非主屬性完全依賴於碼。

  聽起來好像很神秘,其實真的沒什么。
  一個候選碼中的主屬性也可能是好幾個。如果一個主屬性,它不能單獨做為一個候選碼,那么它也不能確定任何一個非主屬性。給一個反例:我們考慮一個小學的教務 管理系統,學生上課指定一個老師,一本教材,一個教室,一個時間,大家都上課去吧,沒有問題。那么數據庫怎么設計?(學生上課表)

學生 課程 老師 老師職稱 教材 教室 上課時間
小明 一年級語文(上) 大寶 副教授 《小學語文1》 101 14:30

一個學生上一門課,一定在特定某個教室。所以有(學生,課程)->教室
一個學生上一門課,一定是特定某個老師教。所以有(學生,課程)->老師
一個學生上一門課,他老師的職稱可以確定。所以有(學生,課程)->老師職稱
一個學生上一門課,一定是特定某個教材。所以有(學生,課程)->教材
一個學生上一門課,一定在特定時間。所以有(學生,課程)->上課時間

  因此(學生,課程)是一個碼。
  然而,一個課程,一定指定了某個教材,一年級語文肯定用的是《小學語文1》,那么就有課程->教材。(學生,課程)是個碼,課程卻決定了教材,這就叫做不完全依賴,或者說部分依賴。出現這樣的情況,就不滿足第二范式!
  有什么不好嗎?你可以想想:
  1、校長要新增加一門課程叫“微積分”,教材是《大學數學》,怎么辦?學生還沒選課,而學生又是主屬性,主屬性不能空,課程怎么記錄呢,教材記到哪呢? ……郁悶了吧?(插入異常)
  2、下學期沒學生學一年級語文(上)了,學一年級語文(下)去了,那么表中將不存在一年級語文(上),也就沒了《小學語文1》。這時候,校長問:一年級語文(上)用的什么教材啊?……郁悶了吧?(刪除異常)
  3、校長說:一年級語文(上)換教材,換成《大學語文》。有10000個學生選了這么課,改動好大啊!改累死了……郁悶了吧?(修改異常)
  那應該怎么解決呢?投影分解,將一個表分解成兩個或若干個表

學生 課程 老師 老師職稱 教室 上課時間
小明 一年級語文(上) 大寶 副教授 101 14:30

學生上課表新

課程 教材
一年級語文(上) 《小學語文1》

課程的表

第三范式(3NF):符合2NF,並且,消除傳遞依賴

  上面的“學生上課表新”符合2NF,可以這樣驗證:兩個主屬性單獨使用,不用確定其它四個非主屬性的任何一個。但是它有傳遞依賴!
  在哪呢?問題就出在“老師”和“老師職稱”這里。一個老師一定能確定一個老師職稱。有什么問題嗎?想想:
  1、老師升級了,變教授了,要改數據庫,表中有N條,改了N次……(修改異常)
  2、沒人選這個老師的課了,老師的職稱也沒了記錄……(刪除異常)
  3、新來一個老師,還沒分配教什么課,他的職稱記到哪?……(插入異常)
  那應該怎么解決呢?和上面一樣,投影分解:

學生 課程 老師 教室 上課時間
小明 一年級語文(上) 大寶 101 14:30
老師 老師職稱
大寶 副教授

BC范式(BCNF):符合3NF,並且,主屬性不依賴於主屬性

  若關系模式屬於第一范式,且每個屬性都不傳遞依賴於鍵碼,則R屬於BC范式。

  通常BC范式的條件有多種等價的表述:每個非平凡依賴的左邊必須包含鍵碼;每個決定因素必須包含鍵碼。BC范式既檢查非主屬性,又檢查主屬性。當只檢查非主屬性時,就成了第三范式。滿足BC范式的關系都必然滿足第三范式。還可以這么說:若一個關系達到了第三范式,並且它只有一個候選碼,或者它的每個候選碼都是單屬性,則該關系自然達到BC范式

  一般,一個數據庫設計符合3NF或BCNF就可以了。在BC范式以上還有第四范式、第五范式。

  第四范式:要求把同一表內的多對多關系刪除。

  第五范式:從最終結構重新建立原始結構。

 

 

第一范式
第一范式:所有屬性都是不可分割的原子值。
也就是每個屬性都是不可再分的。
例如下圖就不符合第一范式的要求

實際上,1NF是所有關系型數據庫的最基本要求,你在關系型數據庫管理系統(RDBMS),例如SQL Server,Oracle,MySQL中創建數據表的時候,如果數據表的設計不符合這個最基本的要求,那么操作一定是不能成功的。如果我們要在RDBMS中表現表中的數據,就得設計為下圖的形式:


第二范式(2NF)
第二范式:在第一范式的基礎上,要求非主屬性都要和碼有完全依賴關系
所謂完全依賴是指不能存在僅依賴碼一部分的屬性,必須是依賴全部屬性。(區別於部分依賴)
如果有哪些數據只和碼的一部份有關的話,它就不符合第二范式。同時可以得出:如果一個數據表的碼只有單一一個字段的話,它就一定符合第二范式(前提是該數據表符合第一范式)。
(碼可以由多個字段組成聯合碼,所以碼可以是多屬性)
2NF在1NF的基礎之上,消除了非主屬性對於碼的部分屬性依賴。

首先來看看下圖

(1)每一名學生的學號、姓名、系名、系主任這些數據重復多次。每個系與對應的系主任的數據也重復多次——數據冗余過大

(2)假如學校新建了一個系,但是暫時還沒有招收任何學生(比如3月份就新建了,但要等到8月份才招生),那么是無法將系名與系主任的數據單獨地添加到數據表中去的 ——插入異常

(3)假如將某個系中所有學生相關的記錄都刪除,那么所有系與系主任的數據也就隨之消失了(一個系所有學生都沒有了,並不表示這個系就沒有了)。——刪除異常

(4)假如李小明轉系到法律系,那么為了保證數據庫中數據的一致性,需要修改三條記錄中系與系主任的數據。——修改異常

所以這張表肯定不符合設計規范。我們來通過第二范式修改。
首先什么是依賴?

依賴
若在一張表中,在屬性(或屬性組)X的值確定的情況下,必定能確定屬性Y的值,那么就可以說Y函數依賴於X,寫作 X → Y。
例如,對於上圖中的數據,找不到任何一條記錄,它們的學號相同而對應的姓名不同。所以我們可以說姓名函數依賴於學號,寫作 學號 → 姓名。但是反過來,因為可能出現同名的學生,所以有可能不同的兩條學生記錄,它們在姓名上的值相同,但對應的學號不同,所以我們不能說學號函數依賴於姓名。

然后什么是碼?


設 K 為某表中的一個屬性或屬性組,若除 K 之外的所有屬性都完全函數依賴於 K(這個“完全”不要漏了),那么我們稱 K 為候選碼,簡稱為碼。在實際中我們通常可以理解為:假如當 K 確定的情況下,該表除 K 之外的所有屬性的值也就隨之確定,那么 K 就是碼。一張表中可以有超過一個碼。(實際應用中為了方便,通常選擇其中的一個碼作為主碼)
如圖中我們可以知道該表的碼是(學號、課名)

對於第二范式,所有的非主屬性要依賴於全部主屬性。
由圖中我們可以得到兩個主屬性:學號 和 課程
“學號“和”課程“就組成了聯合主鍵。(一個表只有一個主鍵。 主鍵可以由一個字段,也可以由多個字段組成)

因為我們可以通過學號來確定一個學生的姓名 系名 系主任 這三個屬性,無法確定課程和分數屬性。
通過學生的學號和課程兩個屬性,可以確定分數。


對於(學號,課名) → 姓名,有 學號 → 姓名,存在非主屬性 姓名 對碼(學號,課名)的部分依賴。
對於(學號,課名) → 系名,有 學號 → 系名,存在非主屬性 系名 對碼(學號,課名)的部依賴。
對於(學號,課名) → 系主任,有 學號 → 系主任,存在非主屬性 系主任 對碼(學號,課名)的部分依賴。

所以表3存在非主屬性對於碼的部分函數依賴,最高只符合1NF的要求,不符合2NF的要求。

所以做出修改


刪除某個系中所有的學生記錄
該系的信息仍然全部丟失。——無改進
所以我們要使用第三范式。

第三范式(3NF)
第三范式:任何非主屬性不依賴於其它非主屬性。
3NF在2NF的基礎之上,消除了非主屬性對於碼的傳遞函數依賴。

對於選課表,碼為(學號,課名),主屬性為學號和課名,非主屬性只有一個,為分數,不可能存在傳遞函數依賴,所以選課表的設計,符合3NF的要求。

對於學生表,主碼為學號,主屬性為學號,非主屬性為姓名、系名和系主任。因為 學號 → 系名,同時 系名 → 系主任,所以存在非主屬性系主任對於碼學號的傳遞函數依賴,所以學生表的設計,不符合3NF的要求。

為了讓數據表設計達到3NF,我們必須進一步進行模式分解為以下形式:
選課(學號,課名,分數)
學生(學號,姓名,系名)
系(系名,系主任)

新的函數依賴關系如圖


修改后的表


第二范式和第三范式就是為了消除非主屬性對碼的部分函數依賴和傳遞函數依賴

BC范式
BC范式在 3NF 的基礎上消除主屬性對於碼的部分與傳遞函數依賴。
要了解 BCNF 范式,那么先看這樣一個問題:
若:
某公司有若干個倉庫;
每個倉庫只能有一名管理員,一名管理員只能在一個倉庫中工作;
一個倉庫中可以存放多種物品,一種物品也可以存放在不同的倉庫中。每種物品在每個倉庫中都有對應的數量。
那么關系模式 倉庫(倉庫名,管理員,物品名,數量) 屬於哪一級范式?

答:已知函數依賴集:倉庫名 → 管理員,管理員 → 倉庫名,(倉庫名,物品名)→ 數量
碼:(管理員,物品名),(倉庫名,物品名)
主屬性:倉庫名、管理員、物品名
非主屬性:數量
∵ 不存在非主屬性對碼的部分函數依賴和傳遞函數依賴。∴ 此關系模式屬於3NF。

基於此關系模式的關系(具體的數據)可能如圖所示:


好,既然此關系模式已經屬於了 3NF,那么這個關系模式是否存在問題呢?我們來看以下幾種操作:
先新增加一個倉庫,但尚未存放任何物品,是否可以為該倉庫指派管理員?——不可以,因為物品名也是主屬性,根據實體完整性的要求,主屬性不能為空。
某倉庫被清空后,需要刪除所有與這個倉庫相關的物品存放記錄,會帶來什么問題?——倉庫本身與管理員的信息也被隨之刪除了。
如果某倉庫更換了管理員,會帶來什么問題?——這個倉庫有幾條物品存放記錄,就要修改多少次管理員信息。
從這里我們可以得出結論,在某些特殊情況下,即使關系模式符合 3NF 的要求,仍然存在着插入異常,修改異常與刪除異常的問題,仍然不是 ”好“ 的設計。

造成此問題的原因:存在着主屬性對於碼的部分函數依賴與傳遞函數依賴。(在此例中就是存在主屬性【倉庫名】對於碼【(管理員,物品名)】的部分函數依賴。

解決辦法就是要在 3NF 的基礎上消除主屬性對於碼的部分與傳遞函數依賴。

倉庫(倉庫名,管理員)
庫存(倉庫名,物品名,數量)

這樣,之前的插入異常,修改異常與刪除異常的問題就被解決了。
---------------------
作者:douunderstand
來源:CSDN
原文:https://blog.csdn.net/douunderstand/article/details/70159540
版權聲明:本文為博主原創文章,轉載請附上博文鏈接!


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM