數據倉庫中的元數據管理技術—讀書筆記


1. 引言

元數據是數據倉庫中的一個重要組成部分,元數據管理系統則是構建管理維護使用數據倉庫系統的核心部件。

2. 基礎知識

2.1 元數據的定義

元數據是指來自企業內外的所有物理數據和知識,包括物理數據的格式,技術和業務過程,數據的規則和約束以及

企業所使用數據的結構。

元數據其實就是知識,包括系統,業務和市場的知識。

2.2 元數據的作用

元數據處於數據倉庫的上層,記錄數據倉庫中對象的位置,是內部技術人員開發與維護數據倉庫的藍圖,是內部技術

人員開發與維護數據倉庫的藍圖,是業務中用戶導航數據倉庫以及定位有用信息的路標。

 

數據倉庫系統獲取,共享和管理元數據主要有兩個目的

1. 作為描述性信息,描述系統的結構特征和靜態特征

2. 作為控制性信息,控制並配置特定工具和進程運行,實現數據倉庫管理和維護的(半)自動化管理

 

元數據機制主要支持以下 5 類系統管理功能:

1. 描述哪些數據在數據倉庫中

2. 定義要進入數據倉庫中的數據和從從數據倉庫中產生的數據

3. 記錄根據業務事件發生而對峙進行的數據抽取工作時間安排

4. 記錄並檢測系統數據一致性的要求和執行情況

5. 衡量數據質量

 

元數據起到的作用

1. 用於集成各類復雜繁多的信息

2. 其定義的語義層可以幫助最終用戶裂解系統中存儲的數據

3. 可以支持需求動態變化,系統各項表現(界面)的靈活性

4. 可以提高和保證數據的質量

5. 可以支持多種工具的開發應用

6. 提高系統的安全性

7. 可以提高系統的智能性

 

2.3 元數據分類

2.4 元數據的標准化

OMG 在 2000 年發布了公共倉庫元模型 CWM (Common Warehouse Metamodel) 規范。

主要目的是在異構環境下,幫助不同的數據倉庫工具,平台和元數據知識庫進行元數據交換。

CWM 模型既包括元數據存儲,也包括元數據交換,它是基於以下 3 個工業標准制定的。

  1. UML。它定義了表示模型和元模型的語法和語義,對 CWM 模型進行建模
  2. MOF 元對象設施
    1. 它是 OMG 元模型和元數據的存儲標准,提供在異構環境下對元數據知識庫的訪問接口
    2. 為構造模型和元模型提供了可擴展的框架,並提供了存取元數據的程序接口
  3. XMI XML元數據交換。它可以使元數據以 XML 文件的方式進行交換,大大增強了 CWM 的通用性

 

OMG 元數據知識庫體系結構如下圖所示

 

3. 元數據管理的策略

要進行成功的元數據集成,必須建立一個一致且合理的管理策略,共享和重用指定目標和需求。

 

全局安全策略。

元數據是一個具有高敏感性和戰略價值的信息財富,必須包含一個全面的安全策略來保證元數據得到充分保護

 

對每個元數據元素語義的一致理解

軟件組件所用到的每一種元數據元素的語義必須存在一致,這直接影響到元數據的共享和重用。

 

每個元數據的所有權。

必須確定哪些個體或哪些組件是一個特定元數據元素的最終所有者。要確保元數據的所有權最終屬於元數據的

主要項目相關人員,而不是屬於數據倉庫的技術管理員或者開發者。

 

元數據元素的版本控制。必須為被管理的元數據設立專門的版本控制規則。

 

手工過程的消除機制和冗余元數據的消除機制。

任何依賴人工干預的元數據集成解決方案對整個數據倉庫的投資回報率都有一個動態的負面的影響,

應該找出目前所有的手動過程,並提出一個最終能使它們自動的計划。

另外,必須盡量消除元數據冗余以最大程度共享和重用元數據

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM