什么是元數據?在前面的什么是元數據文章中,我們也提到過,元數據是數據的數據,可以幫助數據平台解決“有哪些數據”、“數據存儲有多少”、“數據流中的血緣關系”、“如何找到我需要的數據”、“如何使用數據”和“數據的生產進度”問題。
元數據管理是做什么?
元數據在數據平台對原信息的收集、匯總和傳遞將數據平台各個模塊整合起來。元數據管理系統是收集線上db、solor集群、hbase集群和hive集群的元數據信息,並將其傳遞給各其他系統。
元數據管理為大數據平台繪制數據地圖、統一數據口徑、標明數據方位、分析數據關系、管理模型變更及精確到字段級別的影響分析。打通上下游數據繼承關系斷層,為數據質量維護和業務邏輯可視化打下堅實基礎。
要實現元數據管理有三個方面:
1、采集:指從各種工具中,把各種類型的元數據采集進來,采集是元數據管理第一步。
2、存儲:采集之后需要相應的存儲策略來對元數據進行存儲,這需要在不改變存儲架構的情況下擴展元數據存儲的類型;
3、分析:在采集和存儲完成后,對已經存儲的元數據進行管理分析。
在這里我們主要對元數據管理應用的元數據分析、數據地圖功能進行深入了解。
元數據分析
假設有一天,我們需要對某一些業務信息指標做一個報表統計,用於前端的數據展示,這些業務信息可能來自於不同的表,通過不同的ETL過程到目標數據倉庫,最后展示在一個報表中,如下圖所示:
a、血緣分析
假設你在管理報表,有一天你發現有報表數據異常,你需要找出錯誤的數據並提交流程修正,那么這個錯誤數據從何而來?一個個核對數據顯然不夠高效,那你就得知道這個報表的的指標來源,元數據管理工具的血緣分析功能會自動幫助你分析這個錯誤數據的上游路徑,比如這些數據是由table1和table2經過ETL過程進入DW,那么此時你只需要去查找table1和table2以及相關的ETL過程即可。
血緣分析可以清晰的幫助我們了解到所維護的數據的使用與被使用情況,猶如資產一般,便於維護定位與統一管理。
b、影響分析
數據終於更正了,此時你需要及時提醒大家這個數據的更正信息,只需要通知這個數據影響到的實體就可以了,然而整個報表流程的數據傳遞這么復雜,怎么判斷哪些實體會受到這個數據的影響呢。
元數據管理工具的影響分析功能會分析出這個數據的影響范並能用可視化的方式展現出來,只需要更新受所影響的實體。
c、數據地圖展現
隨着業務規模的日益擴大,報表日益增多,有一天你想了解這個業務所有報表整體情況,有多少數據源和ETL過程組成,此時元數據管理工具的數據地圖可以幫助你獲取到想要的信息,數據地圖展現功能可以通過可視化的方式,對整個業務的情況了如指掌,幫助你更好地觀察整個業務流程的情況。
在當今這個大數據時代下,數據即為資產。數據因需求而成為有價資產,數據多寡即窮富,然而無法挖掘的數據是沒有任何的價值,換句話說,如果沒有管理好元數據,收集和存儲的數據都會失去意義,也就沒有業務價值。如何管理好元數據是非常重要的,根據權威數據管理研究機構TDWI對數百家國際企業的調研結果,元數據管理的重要性在全部技術主題中位列第一。通過元數據管理,可以形成系統化數據資產的准確視圖,通過對元數據的統一視圖,管理由各個業務系統的數據,梳理業務元數據之間的關系,並可以對這些數據進行來源、變遷進行跟蹤分析。通過精確把握數據獲取數據,從而把數據轉為有價資產。