元數據解決方案
隨着業務系統每年收集和使用的數據飛速增長,數據體量日趨增長,數據形態多樣化且不統一,多種數據源之間的采集、傳播和共享遇到困難。元數據管理作為大數據治理的核心,是有效管理這些數據的基礎和前提,在信息化建設中發揮着重要的作用。如何理解、管理並發揮出元數據的價值,成為迫切的任務。
一、什么是元數據
元數據(Metadata)是關於數據的數據。元數據是描述數據倉庫內數據的結構和建立方法的數據。可將其按用途的不同分為兩類:技術元數據(Technical Metadata)和業務元數據(Business Metadata)。
- 1. 技術元數據
技術元數據是存儲關於數據倉庫系統技術細節的數據,是用於開發和管理數據倉庫使用的數據,它主要包括以下信息:
1) 數據倉庫結構的描述,包括倉庫模式、視圖、維、層次結構和導出數據的定義,以及數據集市的位置和內容。
2) 業務系統、數據倉庫和數據集市的體系結構和模式。
3) 匯總用的算法,包括度量和維定義算法,數據粒度、主題領域、聚集、匯總、預定義的查詢與報告。
4) 由操作環境到數據倉庫環境的映射,包括源數據和它們的內容、數據分割、數據提取、清理、轉換規則和數據刷新規則、安全(用戶授權和存取控制)。
- 2. 業務元數據
業務元數據從業務角度描述了數據倉庫中的數據,它提供了介於使用者和實際系統之間的語義層,使業務人員也能夠“讀懂”數據倉庫中的數據。業務元數據主要包括以下信息:
1) 使用者的業務術語所表達的數據模型、對象名和屬性名。
2) 訪問數據的原則和數據的來源。
3) 系統所提供的分析方法以及公式和報表的信息。
4) 企業概念模型、多維數據模型,業務概念模型與物理數據的依賴,
二、元數據的作用
元數據可以實現業務模型與數據模型的映射,幫助用戶理解數據倉庫中的數據;元數據清晰的描述了數據的來龍去脈,描述了數據抽取轉換規則,是保證數據質量的關鍵;元數據管理系統可以把整個業務的工作流、數據流和信息流有效的管理,可以支持需求變化,從而提高系統的可擴展性;打通數據孤島,統一數據定義,形成企業級知識傳承平台,元數據管理使得數據變的更有價值。
三、元數據管理
在大數據時代的背景下,數據即資產,元數據實現了信息的描述和分類的格式化,從而為機器處理創造了可能,它能幫助企業更好地對數據資產進行管理,理清數據之間的關系。元數據管理是企業提升數據質量的基礎,也是企業數據治理中的關鍵環節。元數據管理不當,信息很容易被丟失,進而不能對業務進行有效支撐,企業內部業務人員要識別相關信息就會變得十分困難,最終用戶也將失去對數據的信任。
- 元數據采集
技術元數據的采集,根據現有元數據設計出元模型,然后將數據倉庫系統之中的元數據按元模型集中匯總並關聯到一起,達到企業對數據統一管理與應用的目的,ETL等產生的元數據,對於元數據管理工具支持的格式可直接進行導入,對於一些自定義的規則,需要進行格式轉換並導入。
業務元數據相對復雜,來源較廣泛且不統一,需要對業務系統進行深入理解,按業務主題進行整理,梳理出業務范圍、業務名稱 、業務定義、業務描述、業務關系等,並添加到元數據管理系統中。主要從以下幾方面來進行梳理:
1) 業務平台中的各業務流程。
2) 交易、結算系統,提取出各種財務公式、過程邏輯、業務規則等。
3) 報表系統,比如表頭,包含合計、平均數等聚合函數的列,一些計算公式等。
4) 表格,在Excel中進行業務計算的公式,列的描述、代碼描述等。
5) 文件數據中的標題、作者、時間、內容主題等。
2、存儲管理
對元數據存儲需要使用專門的工具,擬定為(還需要做充分調研)Pentaho Metadata進行存儲管理。通過工具與數據庫系統的對接,將元數據導致進去,對於不支持系統對接的元數據,可手動進行添加。通過管理工具提供的輔助功能可對元數據進行標注、完善等。
四、元數據應用
通過元數據管理工具將元數據服務提供給所有業務人員,使業務人員也能夠快速的從業務角度理解數據,從而幫助業務人員更好的利用數據。以下用三個方面來闡述元數據的實際應用價值:
1、元數據對比分析
業務系統由開發環境到測試環境再到生產環境,在系統的設計、開發、測試、上線過程中,無論需求變更還是Bug都會導致元數據的改動。大到庫表結構重新設計,小到字段類型的變更,都可能導致系統出現重大問題。為了避免這種問題的發生,我們可以使用元數據系統的對比分析功能,元數據系統可以自動采集三個環境的庫、表、字段、視圖、存儲過程等結構,自動化采集保證了各自環境中都是最新的、最准確的元數據結構,我們對上線的數據環境與測試庫進行對比,會輕松的發現問題所在,能大大降低這些問題發生的概率。
2、數據流向分析
數據平台系統中,業務數據由操作型數據幾分析型數據轉換,通過大量的數據抽取、轉換、清洗等過程形成了分析統計數據。數據由業務系統->數據倉庫->數據集市->分析報表,數據加工鏈路比較長,期間處理方式多元化,很容易會出現數據項不符合業務邏輯的情況,出現問題也很難迅速解決。
通過使用元數據系統的數據流向分析,即影響分析(上游->下游)與血緣分析(下游->上游),提供了字段級的數據解析,上下游之間的數據加工鏈路可以通過圖形的方式快速定位,可以快速定位特定的表和某些字段,然后做詳細的邏輯分析,大大簡化了分析環節,提升了解決問題的效率。
3、交易鏈路分析
元數據可以輔助快速梳理系統服務之間的調用關系與服務間的接口。比如交易系統中入金、記賬、結算等業務,會經過一系統復雜的系統接口服務調用,為了更為清晰、准確的了解交易流程,需要對各個服務進行梳理、整合,由於涉及不同的部門、系統,工作量和工作難度將相當大。為了解決這個問題,元數據的鏈路分析能力可以自動化的完成梳理任務,元數據可以通過服務接口的采集,自動獲取服務的信息,包括參與接口調用的輸入、輸出字段信息,並通過系統自動采集相關的數據字典與關系映射,避免人工梳理造成漏誤,以元數據驅動,服服務的業務元數據規范新的服務,完成整個服務系統。
另外還可以進行實體關聯分析、實體差異分析、指標一致性分析、輔助應用優化、輔助案例管理。
