軟考筆記(六)高級系統架構師/分析師:數據庫


目錄

數據庫模式

三級模式、兩級映射

  外模式、模式、內模式

      外模式/模式映射、模式/內模式映射

      外模式:External Schema或Sub Schema,視圖,用戶模式,是數據庫用戶能看見和使用的局部數據的邏輯結構,與某一應用有關的數據邏輯表示。外模式通常是模式的子集,一個數據庫有多個外模式。概念結構設計階段的產物,E-R圖。

      模式:Schema,也成為邏輯模式,概念模式關系表,數據庫中全體數據的邏輯結構和特征的描述,所有用戶的公共數據視圖。模式實際上是數據庫數據在邏輯級上的視圖。一個數據庫只有一個模式。邏輯結構設計階段的產物,表結構。

      內模式:Storage Schema,存儲模式。一個數據庫只有一個內模式,數據物理結構和存儲方式的描述,數據在數據庫內部的表示方式。物理設計階段產物。物理設計階段產物。

      兩類獨立性:

      數據的物理獨立性:當內模式(物理模式)發生改變時,數據的邏輯結構(模式)保持不變。需要修改模式/內模式映射。

      數據的邏輯獨立性:數據的邏輯結構(模式)發生變化時,應用程序不用修改。需要修改外模式/模式映射。

      (XX獨立性,就是指XX變化時,上級模式不用變!!!!!)

數據庫設計過程

需求分析->概念結構設計-> 邏輯結構設計->物理設計

外模式:概念結構設計階段的產物,E-R圖   

數據庫概念結構設計階段的工作步驟:抽象數據→設計局部視圖→合並取消沖突→修改重構消除冗余  ER模型

模式:邏輯結構設計階段的產物,表結構

內模式:物理設計階段產物

 

關系代數

並 S1 U S2

交 S1 N S2

差 S1 - S2

笛卡爾積 S1 X S2

投影 S1 選擇固定的列

選擇 S1 選擇固定的行  

自然連接 :  做拼接,  找到指定的有相同元素的行,不相同的 補在后面

運算效率問題:盡早做選擇的操作

規范化理論

  • 超鍵  : 能夠唯一標識元組
  • 候選鍵 :消除多余屬性
  • 主鍵  候選鍵任選一個
  • 外鍵 其他關系的主鍵

非規范化的關系模式,可能存在的問題包括:數據冗余、更新異常、插入異常、刪除異常

優化方法:泛式

 

關系模式R<U,F>來說有以下的推理規則:
A1.自反律(Reflexivity):若YsXcU,則x一Y成立。
A2.增廣律(Augmentation):若ZcU且X→Y,則XZ一YZ成立。
A3.傳遞律(Transitivity):若X一Y且Y一Z,則X一z成立。


根據A1,A2,A3這三條推理規則可以得到下面三條推理規則:
合並規則:由x一Y,X一Z,有X一YZ。(A2,A3)

偽傳遞規則:由X→Y,WY-Z,有xW-Z。(A2,A3)

分解規則:由X→Y及ZSY,有X→Z。(A1,A3)

 

函數依賴

設R(U)是屬性U上的一個關系模式,X和Y是U的子集,r為R的任一關系,如果對於r中的任意兩個元組u,v,只要有u[X]=v[X],就有u[Y]=v[Y],則稱X函數決定Y,或稱Y函數依賴於X,記為X一Y。

A B 共同決定 C, 則C 部分函數依賴 A,B

A決定B, B決定C,  C傳遞依賴A

 

數據庫安全

  • 用戶標識和鑒定
  • 存取控制
  • 密碼存儲和傳輸
  • 視圖的保護
  • 審計

數據備份

  • 冷備份也稱為靜態備份,是將數據庫正常關閉,在停止狀態下,將數據庫的文件全部備份(復制)下來。
  • 熱備份也稱為動態備份,是利用備份軟件,在數據庫正常運行的狀態下,將數據庫中的數據文件備份出來。
  •  
  • 完全備份:備份所有數據
  • 差量備份:僅備份上一次完全備份之后變化的數據
  • 增量備份:備份上一次備份之后變化的數據
  • 日志文件:事務日志是針對數據庫改變所做的記錄,它可以記錄針對數據庫的任何操作,並將記錄結果保存在獨立的文件中。

 

分布式數據庫系統 

分布透明性

  • ·分片透明性:分不分片,用戶感受不到
  • ·位置透明性:數據存放在哪里,用戶不用管
  • ·局部數據模型透明性(邏輯透明):用戶不用關系局部數據模型

分布式數據庫管理系統-組成

  • ·LDBMS
  • ·GDBMS
  • ·全局數據字典
  • ·通信管理(CM)

分布式數據庫管理系統-結構

  • ·全局控制集中的DDBMS
  • ·全局控制分散的DDBMS
  • ·全局控制部分分散的DDBMS

數據倉庫與數據挖掘

關聯分析:關聯分析主要用於發現不同事件之間的關聯性,即一個事件發生的同時,另一個事件也經常發生。關聯分析的重點在於快速發現那些有實用價值的關聯發生的事件。其主要依據是事件發生的概率和條件概率應該符合一定的統計意義。在進行關聯分析的同時,還需要計算兩個參數,分別是最小置信度(可信度)和最小支持度,前者表示規則需滿足的最低可靠度,用以過濾掉可能性過小的規則;后者則用來表示規則在統計意義上需滿足的最小程度。

序列模式分析:序列分析主要用於發現一定時間間隔內接連發生的事件,這些事件構成一個序列,發現的序列應該具有普遍意義,其依據除了統計上的概率之外,還要加上時間的約束。在進行序列分析時,也應計算置信度和支持度。

分類分析:分類分析通過分析具有類別的樣本特點,得到決定樣本屬於各種類別的規則或方法。利用這些規則和方法對未知類別的樣本分類時應該具有一定的准確度。其主要方法有基於統計學的貝葉斯方法、神經網絡方法、決策樹方法等。分類分析時首先為每個記錄賦予一個標記(一組具有不同特征的類別),即按標記分類記錄,然后檢查這些標定的記錄,描述出這些記錄的特征。這些描述可能是顯式的,例如,一組規則定義;也可能是隱式的,例如,一個數學模型或公式。

聚類分析:聚類分析是根據“物以類聚”的原理,將本身沒有類別的樣本聚集成不同的組,並且對每個這樣的組進行描述的過程。其主要依據是聚集到同一個組中的樣本應該彼此相似,而屬於不同組的樣本應該足夠不相似。聚類分析法是分類分析法的逆過程,它的輸入集是一組未標定的記錄,即輸入的記錄沒有作任何處理,目的是根據一定的規則,合理地划分記錄集合,並用顯式或隱式的方法描述不同的類別。在實際應用的DM系統中,上述四種分析方法有着不同的適用范圍,因此經常被綜合運用。

數據預處理是整合企業原始數據的第一步,它包括數據的抽取(extraction)、轉換(transformation)和加載(load)三個過程(ETL過程)。

建立數據倉庫則是處理海量數據的基礎;數據分析是體現系統智能的關鍵,一般采用聯機分析處理OLAP和數據挖掘兩大技術。

聯邦數據庫

聯邦數據庫系統(FDBS)是一個彼此協作卻又相互獨立的成員數據庫(CDBS)的集合,它將成員數據庫系統按不同程度進行集成,對該系統整體提供控制和協同操作的軟件叫做聯邦數據庫管理系統(FDBMS)

聯邦數據庫特征

  • ·分布性
  • ·異構性
  • ·自治性
  • ·透明性

聯邦數據庫分類

  • ·緊耦合
  • ·松耦合

NoSQL

一般關系數據庫模式:

  • 支持並發、效率低
  • 關系表方式存儲、SQL查詢
  • 向上擴展
  • B樹、哈希等
  • 面向通用領域

NoSQL模式:

  • 並發性能高
  • 海量數據存儲、查詢效率高
  • 向外擴展
  • 鍵值索引
  • 特定應用領域

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM