1、元數據的概念
傳統定義上,元數據Metadata是關於數據的數據(data about data),在數據倉庫中,元數據是描述數據倉庫內數據的結構以及建立方法的數據,按其用途分為技術元數據和業務元數據。
元數據指明了數據倉庫中信息的內容和位置,刻畫了數據的抽取和轉換規則,存儲了與數據倉庫主題有關的各種商業信息,而且整個數據倉庫的運行都是基於元數據的,如修改跟蹤數據、抽取調度數據、同步捕獲歷史數據等。
元數據描述了數據倉庫的數據和環境。
一類是管理元數據(Administrative Metadata),它是對源數據及其內容、數據倉庫主題、數據轉換及各種操作信息的描述。
另一類是用戶元數據(UserMetadata),它幫助用戶查詢信息、理解結果、了解數據倉庫中的數據和組織。
技術元數據 :主要包括對數據結構、數據處理方面的特征描述,覆蓋數據源接口、數據倉庫與數據集市存儲、ETL、OLAP、數據封裝和前端展現等全部數據處理環節;
業務元數據 :主要包括業務術語、信息分類、指標定義和業務規則等信息;
管理元數據 :主要包括人員角色、崗位職責和管理流程等信息。
2、元數據的功能
2.1數據倉庫內容的描述
為了能夠描述數據倉庫中的數據以及數據間的各種復雜關系,元數據定義了DW的一系列內容。元數據描述了數據倉庫中有什么數據及數據間的關系,它們是用戶使用和系統管理數據倉庫的基礎。
2.2定義抽取和轉化
元數據可以用來生成源代碼以完成數據的轉換工作,即完成由操作型數據轉換生成以特殊形式存放的、面向主題的數據倉庫數據。
元數據中的抽取表映射和抽取域映射定義了進行實際抽取轉換工作的過程。
數據倉庫管理核心是:利用該組元數據所定義的抽取過程生成某種語言的源代碼,然后編譯成可執行的程序以完成數據的抽取工作。其核心也可直接以解釋的方式從元數據存儲中讀出每個抽取步處理過程,從而進行數據轉換。
2.3基於商業事件的抽取調度
抽取調度是指什么時間進行從源數據到DW的抽取工作,元數據必須對數據的抽取安排加以說明。
2.4數據質量保證
元數據必須提供一個機制,即針對特定應用並根據用戶確立的數據容忍程度來提醒用戶是否采用該數據進行決策。