銀行數據倉庫體系實踐(12)--數據管理及治理


數據倉庫作為全行數據中心能高效支持全行或全公司的統計 、數據分析工作,除了穩定的ETL架構、高效的數據處理能力,流暢的開發管理流程,還需要有全面的數據管理體系,確保提供的數據准確性和高質量。數據管理主要有數據標准,元數據和數據質量3方面。那數據治理是指對沒有規范或者不符合規范的數據進行清理並建立標准和規范,那也是從這3方面着手。那這三方面的數據管理也是全行級的管理,並不僅僅限於數據倉庫,只是在數據倉庫管理中會更多的使用到。

 

1、數據標准

        數據標准指在全行或全公司范圍內統一數據分類分級、定義、記錄格式及轉換、編碼等技術標准。舉個簡單的例子,在核心系統中的客戶性別和貸款系統中的客戶性別是否一樣?當兩個系統的數據都到數據倉庫的客戶表中,需要怎么整合在一起。

        最理想的方式是在公司剛建立的時候就定義了數據標准,每個系統建設時的數據字段都按同一個標准來,這樣各個系統之間的數據表字段定義一致,無需轉換就可以互相關聯、比較。但現實中往往各個系統建設時同一個定義的字段在命名、格式、代碼值等都會不同,導致在數據應用時需要互相轉換才能統一計算。那數據標准就是制定一套全行的規范,各系統統一按這個規范轉換后再一起進行數據加工和分析,那數據標准制定的原則有:

        (1)以業務為導向:基於銀行已有實際業務和系統情況制定數據標准;

        (2)遵循外部標准:充分遵循各類成熟的外部標准,並按照國家標准、金融行業標准和國際標准的順序進行采納;

        (3)前瞻性及科學性:既滿足現階段業務需求,更要結合國內外經驗發展所帶來的數據標准需求;

         數據標准可以分為基礎數據標准和業務標准,基礎數據標准就是行內一套統一的字段定義和代碼規范以及各系統數據字段往標准代碼轉換的規則,那這些數據標准和轉換規則主要在數據倉庫主模型進行落地,第5節中介紹的公共代碼轉換作業就是指這里往數據標准進行轉換,除了轉換規則外,數據標准的定義主要內容如下:

       那業務標准主要有機構標准、產品標准、渠道標准、客戶標准等,其實就是在第9節中提到的主題模型建設時最重要的主題數據分類和ID的確定。以下是一個銀行產品標准的例子,對全行的產品進行統一分類,形成標准。

       那標准定義完成后,對於后續的標准更新、增加等都需要有一定的管理流程,才能保證標准的統一性。那在數據標准制定時也會建設數據標准管理系統,它的主要功能有數據標准的維護和展現、數據標准的相關流程實現。

       那在標准的推廣中,從源系統直接改造那是最徹底的,但改造已建系統和產品化的系統工作量太大也無必要,因為數據標准的作用是統一全行的數據定義,便於數據分析和處理,通過數據倉庫的數據集中和轉換也可以達到同樣的目的,那新系統的建設可以基於全行的數據標准進行表設計,減少數據分析轉換成本。

 

2、元數據管理

 元數據是“關於數據的數據”,包括技術元數據和業務元數據,其中,技術元數據包括物理模型及數據庫對象的信息、數據據處理流程和關系信息、工具元數據信息(前端展示工具、ETL工具),業務元數據包括邏輯模型、應用指標和維度描述、業務功能描述。

       那元數據管理也需要有系統來支撐,它的主要功能有:

       (1)元數據采集,包括各個系統的數據庫對象(表、視圖、索引等)信息、系統間接口、ETL作業信息、數據轉換進行采集並存儲;

       (2)數據展示:對采集的元數據信息進行展示、查詢和簡單統計;

       (3)影響分析:影響分析是指以某一個物理表或者字段為出發點,查找其下游所有層次的影響對象。即“它被哪些表和字段加工使用了”,它以采集相關的數據庫結構信息和ETL加工過程元數據為基礎。結果以圖形方式展示。影響分析是在數據結構層級做出的分析結果,分析對象可以是數據庫表或字段。

        (4)血緣分析:血緣分析是指以某一個物理表或者字段為出發點,查找其上游所有層次的對象,即“它從哪些表和字段來,是按什么規則加工的”,他和影響分析剛好分析路徑相反。

        影響分析和血緣分析在數據倉庫分析源系統變動對數據倉庫和下游系統的影響並調整時會經常用到,因此快速准確的影響分析功能可以提高數據倉庫的維護效率。目前來看表級的分析可以做到精確和快速,但是字段級的影響分析還不能完全准確,主要是數據轉換時的字段映射往往采集不到,因為光從工具來實現來看,開發人員寫SQL五花八門,而且分析每個SQL字段映射需要能看到SQL執行引擎的底層信息,難度很大,但如果數據轉換作業按照第5節中的配置化來做,可以只采集分析配置文件即可分析到數據轉換規則,即提高開發效率,又能方便分析。如果有廠商保證在不需要任何規范的前提下能進行字段級的影響分析,那需要重點POC進行驗證。

       之前我們提到的指標系統其實也可以是元數據的一部分,但它還有計算跑批的功能,因此會單獨建立一個子系統,減少耦合和影響。元數據管理系統更多的是管理和分析,在全行數據管理和數據倉庫設計和需求分析中使用。

 

3、數據質量

        數據質量是指數據的完整性、准確性和一致性,數據質量的好壞影響着數據分析的效果和質量,數據質量問題可能貫穿於ODS建設中的每一個環節,對數據質量檢查和監控是數據倉庫建設中必不可少的重要組成部分,數據質量問題可以分為業務問題好技術問題,技術問題指在數據在抽取、傳輸、整合、加載、分析等各個環節代碼原因導致的數據問題,如數據拉鏈表出現斷鏈的問題,主鍵重復等問題;業務問題指發現源業務系統的數據存在規則錯誤,如企業規模類型字段缺失或分類不准確、總賬表科目出現借貸不平等。

        數據質量問題可以通過數據質量檢查來及時發現,那檢查主要是根據數據質量檢查規則來進行計算和比對。數據質量的問題越早發現對后續處理越簡單,如果錯誤數據繼續往后使用,那會影響后續所有使用的加工作業。那數據質量的檢查可以在事前、事中和事后進行檢查,事前是指在ETL作業前先對加工的源數據進行檢查,發現問題及時停止作業,事中指在數據加工作業中間或者完成時對作業的結果進行檢查,發現問題后續作業可以先暫停。事前和事中的檢查往往是對關鍵的作業和表數據進行檢查,比如檢查重點字段賬戶余額總分是否一樣,事后檢查是在批處理結束后再安排檢查,針對影響小且修復成本較小的問題。

        數據質量檢查系統主要的功能有:

        (1)數據檢查規則配置:配置規則需要能轉換到可執行的SQL腳本、錯誤級別並能傳遞參數;

       (2)數據質量作業:數據質量作業需要和調度系統進行集成,通過一個統一的數據質量檢查作業,傳入規則編號和參數既可選擇檢查規則進行數據質量檢查。對於檢查出錯的作業根據規則配置的錯誤級別來暫停批處理或只是警告,繼續執行后續作業。

       (3)數據質量結果查詢和處理:對於每天發現的數據質量問題結果進行存儲並跟進后續處理結果,按周期對全行數據質量和改善情況進行統計和產生報告。

        數據質量除了系統的規則和運行,最主要的還需要有從全行數據質量管理辦法來確定數據質量問題處理的負責部門,對於業務數據問題需要業務部門進行數據更新、補錄。在數據錄入和業務過程中對數據錄入進行規范操作。從數據產生的源頭對數據質量進行控制。特別是會影響報送、數據分析的字段要重點關注。

 

4、數據補錄

       數據質量檢查過程中會經常發現源系統的字段缺失,導致數據報送不符合規范,影響數據分析結果,那往往需要業務人員進行補錄,那補錄最好的系統當然是在源系統,但往往許多系統設計時並沒有考慮補錄數據的需求,因此可以在全行建立一個補錄系統,通過配置需要補錄的字段、格式、檢查規則以及后台系統及數據庫自動產生補錄界面,該補錄界面可以被各系統進行集成,以便在各系統進行數據補錄。

       那對於一些數據應用系統的結果數據,如反洗錢上報的交易對手缺失,可以在數據應用系統中補錄,對於補錄的數據如有必要也可以回傳給數據倉庫進行數據補充,以便其它系統使用。

 

       數據質量管理、元數據管理、數據補錄系統都可以被所有系統使用,可以作為全行的公共數據服務。再加上全行級的數據標准管理系統可以整合為數據管理系統,以便統一建設和管理,減少重復功能和配置。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM