數據倉庫建設之《元數據管理》


元數據解決方案

  隨着業務系統每年收集和使用的數據飛速增長,數據體量日趨增長,數據形態多樣化且不統一,多種數據源之間的采集、傳播和共享遇到困難。元數據管理作為大數據治理的核心,是有效管理這些數據的基礎和前提,在信息化建設中發揮着重要的作用。如何理解、管理並發揮出元數據的價值,成為迫切的任務。

一、什么是元數據

  元數據(Metadata)是關於數據的數據。元數據是描述數據倉庫內數據的結構和建立方法的數據。可將其按用途的不同分為兩類:技術元數據(Technical Metadata)和業務元數據(Business Metadata)。

  1. 1.     技術元數據

    技術元數據是存儲關於數據倉庫系統技術細節的數據,是用於開發和管理數據倉庫使用的數據,它主要包括以下信息:

1)     數據倉庫結構的描述,包括倉庫模式、視圖、維、層次結構和導出數據的定義,以及數據集市的位置和內容。

2)     業務系統、數據倉庫和數據集市的體系結構和模式。

3)     匯總用的算法,包括度量和維定義算法,數據粒度、主題領域、聚集、匯總、預定義的查詢與報告。

4)     由操作環境到數據倉庫環境的映射,包括源數據和它們的內容、數據分割、數據提取、清理、轉換規則和數據刷新規則、安全(用戶授權和存取控制)。

  1. 2.     業務元數據

  業務元數據從業務角度描述了數據倉庫中的數據,它提供了介於使用者和實際系統之間的語義層,使業務人員也能夠“讀懂”數據倉庫中的數據。業務元數據主要包括以下信息:

1)     使用者的業務術語所表達的數據模型、對象名和屬性名。

2)     訪問數據的原則和數據的來源。

3)     系統所提供的分析方法以及公式和報表的信息。

4)     企業概念模型、多維數據模型,業務概念模型與物理數據的依賴,

二、元數據的作用

  元數據可以實現業務模型與數據模型的映射,幫助用戶理解數據倉庫中的數據;元數據清晰的描述了數據的來龍去脈,描述了數據抽取轉換規則,是保證數據質量的關鍵;元數據管理系統可以把整個業務的工作流、數據流和信息流有效的管理,可以支持需求變化,從而提高系統的可擴展性;打通數據孤島,統一數據定義,形成企業級知識傳承平台,元數據管理使得數據變的更有價值。

三、元數據管理

  在大數據時代的背景下,數據即資產,元數據實現了信息的描述和分類的格式化,從而為機器處理創造了可能,它能幫助企業更好地對數據資產進行管理,理清數據之間的關系。元數據管理是企業提升數據質量的基礎,也是企業數據治理中的關鍵環節。元數據管理不當,信息很容易被丟失,進而不能對業務進行有效支撐,企業內部業務人員要識別相關信息就會變得十分困難,最終用戶也將失去對數據的信任。

  1. 元數據采集

  技術元數據的采集,根據現有元數據設計出元模型,然后將數據倉庫系統之中的元數據按元模型集中匯總並關聯到一起,達到企業對數據統一管理與應用的目的,ETL等產生的元數據,對於元數據管理工具支持的格式可直接進行導入,對於一些自定義的規則,需要進行格式轉換並導入。

業務元數據相對復雜,來源較廣泛且不統一,需要對業務系統進行深入理解,按業務主題進行整理,梳理出業務范圍、業務名稱 、業務定義、業務描述、業務關系等,並添加到元數據管理系統中。主要從以下幾方面來進行梳理:

1)     業務平台中的各業務流程。

2)     交易、結算系統,提取出各種財務公式、過程邏輯、業務規則等。

3)     報表系統,比如表頭,包含合計、平均數等聚合函數的列,一些計算公式等。

4)     表格,在Excel中進行業務計算的公式,列的描述、代碼描述等。

5)     文件數據中的標題、作者、時間、內容主題等。

  2、存儲管理

  對元數據存儲需要使用專門的工具,擬定為(還需要做充分調研)Pentaho Metadata進行存儲管理。通過工具與數據庫系統的對接,將元數據導致進去,對於不支持系統對接的元數據,可手動進行添加。通過管理工具提供的輔助功能可對元數據進行標注、完善等。

四、元數據應用

  通過元數據管理工具將元數據服務提供給所有業務人員,使業務人員也能夠快速的從業務角度理解數據,從而幫助業務人員更好的利用數據。以下用三個方面來闡述元數據的實際應用價值:

  1、元數據對比分析

  業務系統由開發環境到測試環境再到生產環境,在系統的設計、開發、測試、上線過程中,無論需求變更還是Bug都會導致元數據的改動。大到庫表結構重新設計,小到字段類型的變更,都可能導致系統出現重大問題。為了避免這種問題的發生,我們可以使用元數據系統的對比分析功能,元數據系統可以自動采集三個環境的庫、表、字段、視圖、存儲過程等結構,自動化采集保證了各自環境中都是最新的、最准確的元數據結構,我們對上線的數據環境與測試庫進行對比,會輕松的發現問題所在,能大大降低這些問題發生的概率。

  2、數據流向分析

  數據平台系統中,業務數據由操作型數據幾分析型數據轉換,通過大量的數據抽取、轉換、清洗等過程形成了分析統計數據。數據由業務系統->數據倉庫->數據集市->分析報表,數據加工鏈路比較長,期間處理方式多元化,很容易會出現數據項不符合業務邏輯的情況,出現問題也很難迅速解決。

  通過使用元數據系統的數據流向分析,即影響分析(上游->下游)與血緣分析(下游->上游),提供了字段級的數據解析,上下游之間的數據加工鏈路可以通過圖形的方式快速定位,可以快速定位特定的表和某些字段,然后做詳細的邏輯分析,大大簡化了分析環節,提升了解決問題的效率。

  3、交易鏈路分析

  元數據可以輔助快速梳理系統服務之間的調用關系與服務間的接口。比如交易系統中入金、記賬、結算等業務,會經過一系統復雜的系統接口服務調用,為了更為清晰、准確的了解交易流程,需要對各個服務進行梳理、整合,由於涉及不同的部門、系統,工作量和工作難度將相當大。為了解決這個問題,元數據的鏈路分析能力可以自動化的完成梳理任務,元數據可以通過服務接口的采集,自動獲取服務的信息,包括參與接口調用的輸入、輸出字段信息,並通過系統自動采集相關的數據字典與關系映射,避免人工梳理造成漏誤,以元數據驅動,服服務的業務元數據規范新的服務,完成整個服務系統。

  另外還可以進行實體關聯分析、實體差異分析、指標一致性分析、輔助應用優化、輔助案例管理。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM