銀行數據倉庫體系實踐(10)--匯總指標層和集市模型設計


建立多層次的數據訪問服務體系,有力提升數據倉庫的價值。基於指標匯總層、集市層、可以提供面向業務人員的即席數據查詢、以及面向應用開發者的數據接口、應用訪問接口,滿足不同類型應用的需要。

1、匯總指標層模型設計原則及步驟

    1.1建設目標:

        匯總指標層也叫中間層,他提煉出對ODS具有共性的數據訪問、統計需求,從而構建出的一個面向支持應用的、提供共享的數據訪問服務的公共數據。從技術角度看目標有:

        (1)同時服務於多個不同應用,實現數據和指標的共享,減少相同的業務統計所帶來的數據重復計算與存儲,避免數據在多次加工后出現的不一致。

        (2)提高查詢效率。將計算結果存儲在指標匯總層,數據一次加工,多次使用,減少了重新關聯表進行計算所帶來的性能問題,加快了查詢的響應時間。

    從業務層面來看,主要目的如下:

        (1)指標匯總層的實現對常用的業務統計口徑進行統一的定義和維護,並基於此建立起常用的業務統計口徑標准數據定義。

        (2)指標匯總層提供了一個便於業務人員理解的數據視圖,可以供其分析使用。

    1.2設計步驟

       第7節已經提到過中間層的設計步驟如下:

        (1)從各集市以及數據應用系統分析共性的數據需求;

        (2)確定共性的關鍵實體和指標,即完成中間層數據加工范圍;

        (3)確定統計維度,設計中間層表結構,設計時也需要考慮后續應用需求,做適當的屬性和維度擴充;

        (4)對所需要的數據與主數據區數據進行映射,確定加工規則;

        (5)系統驗證以及后續不斷維護擴充,由於業務不斷變化,中間層也會和數據倉庫一樣不斷進行演化並適應數據使用需求;

    1.3設計原則

        那匯總指標層主要設計原則如下:

        (1) 應用驅動,按業務分析視角組織表設計:從設計步驟看,中間層的設計起源於各集市及數據應用系統的需求,同時設計中間層時需要按業務產品視角進行分類,如存款、貸款、中間業務等,以便業務集市和系統理解和使用,因為匯總指標層的數據直接會給到業務人員使用;

        (2)中間層采用了逆范式寬表設計,即采用維度建模的方法,在事實表盡量關聯更多的屬性,以減少后續關聯。

        (3)匯總指標層主要統計的維度包括時間(年、月、日),機構、產品、客戶、賬戶、幣種、交易渠道、交易類型等,加工結果表一般都有多維度聚合,如存款賬戶交易月匯總指標,即根據存款賬戶不同的交易類型(交易碼)來統計交易筆數和交易金額,如卡交易月匯總指標根據維度組合(卡、產品、機構、客戶、幣種)來統計交易筆數和交易金額

        (4)匯總指標按維度統計時按由細到粗的順序進行匯總,減少重復計算量,如統計年交易量,可以先統計日交易量,再統計月交易量,最后統計年交易量,如統計,如統計客戶資產可先按賬戶統計余額,再按產品匯總余額,最后按客戶匯總各產品為總資產;如統計各機構的客戶數,可以按支行、分行、總行進行逐層統計。

        (5)匯總指標層一般分為明細層和加工層,明細層主要為業務實體表,加工層主要為維度表和匯總指標結果表。明細層表主要按業務條線和產品條線進行表設計,如存款對私賬戶表、貸款借據表等,同時需要關聯多表獲得更全面的屬性以及維度。如借據表需要有客戶、合同、機構、幣種、產品等維度,以便后續進行統計匯總。

        (6) 歷史數據保留策略:中間層數據實際上是數據倉庫當前全量的一個快照,如果按照歷史每天保存數據量是非常大的,根據應用訪問的要求和基礎數據平台的空間情況,可以制定中間層數據的保留策略:

       1)事件交易明細表以視圖方式獲取主數據區數據,不進行保留;

        2)日表保留1-3日數據;

        3)月表保留13個月的月末數據;

        4)季報保留5個季度末數據;

        5)年報保留2個年末數據;

    1.4重點加工舉例

        那在銀行數據倉庫中,加工層中的匯總指標結果除了常見的幣種折算、余額、交易量、客戶數等,以下幾個方面也經常在中間層實現:

        (1)賬戶日均:日均是在產品分析、績效考核績效考核中都會遇到的指標,需要對存貸款賬戶的日均進行加工;

        (2)客戶資產負債:客戶資產負債對於客戶分層以及營銷方面經常使用,如需要將個人客戶在銀行的存款、貸款、理財、基金、三方存款、保險、信托、信用卡、貴金屬等數據按資產負債進行分類統計。

        (3)交易對手:交易對手是監管報表、客戶分析、風險控制所需要的重要信息,但是由於交易信息會散落在各個系統中,如支付、核心等,因此需要對交易進行關聯以補充交易對手信息;

        (4)疑似客戶:即2個客戶號可能為同一個客戶,如只有證件號碼相同、只有手機號相同的客戶,無法確定是否是同一個客戶,可以在客戶分析及數據清理時提供數據,由櫃面在辦理客戶業務市進行補充信息,完善ECIF中的客戶識別。

 

2、集市模型設計原則及步驟

        數據集市是面向數據應用為出發點,一個數據集市可以支持多個相關的數據應用,如風險集市可能支持新資本協議相關的內評、經濟資本、風險緩釋等系統;監管集市會支持央行大集中、1104報表、反洗錢等監管報送系統。數據集市的作用與指標匯總層類似,但服務的目標系統只是指標匯總層的一部分,因此集市比指標匯總層更面向應用和用戶。

    2.1設計步驟

      (1)應用需求分析:這部分主要針對數據應用系統所需要的數據范圍及指標來確定,因此是先分析數據應用系統的需求,再提煉數據集市的數據接口需求;

       (2)目標表設計:即數據集市結果表設計,他會根據數據應用的需求進行數據表設計,一般專業度高、產品成熟的系統會自帶數據集市目標表的設計。比如管理會計、風險緩釋等系統。

       (3)數據源分析:主要分析數據倉庫的數據如何滿足集市的需要,即確定需要數據倉庫的那些表數據,如果數據倉庫沒有,則需要數據倉庫進行數據補充。

       (4)數據倉庫表與目標表字段進行映射,確定加工規則;

       (5)驗證數據並調整加工規則;

     2.2設計原則

       數據集市一般簡單分為三層:

       (1)基礎數據:主要是從數據倉庫獲取的數據,如果是倉內集市,只需要做視圖映射,減少數據移動,如果是倉外集市則需要通過數據抽取加載批量獲取數據,對於基礎數據由於數據倉庫已經保留了歷史數據,這部分歷史數據可以只簡單保留幾天即可;

       (2)加工計算:即集市的目標表或物理模型,需要從基礎數據加工映射到目標表。這部分結果表需要根據應用的需求進行加工結果保留,有些系統如新資本協議相關系統的歷史數據要求比較高,則需要設計歷史數據保留方式,考慮是否可以歸到到歷史數據區。

        (3)接口層:主要提供數據給應用系統的批量數據接口,接口的加工不能太復雜,不進行數據加工,只進行簡單的關聯篩選,可以用視圖表示,該部分數據只需要保留3天進行問題處理即可。

        集市的設計原則與指標匯總層類似,也是采用維度建模方式,常見的有星座模型、雪花模型等,只需要按實際應用需要和方便設計即可,對於指標加工也可按匯總指標層的方式逐層加工。

        那數據集市相對於匯總指標層更面向應用,兩者的邊界簡單可以按加工需求是否是單一集市或應用系統使用,比如反洗錢相關的報送指標只有在反洗錢系統使用,那就在對應的監管集市來加工。如果對於貸款逾期相關的指標行內風險分析報表(對應風險集市)以及監管報表(對應監管集市)都需要使用,則需要在匯總指標層加工。

 

3、指標系統

        指標系統主要是進行指標管理的系統,他的主要功能有:

        (1)基礎指標定義,即將基礎指標和數據庫字段進行映射;

        (2)衍生指標定義,即以基礎指標為基礎,通過簡單或復雜的計算得到衍生指標,那衍生指標的規則可以進行配置;

        (3) 衍生指標計算,即按設定的周期進行衍生指標加工,如每天計算、月底計算等。

        通過指標系統可以清晰管理數據倉庫及各集市、應用的指標,減少代碼開發工作量。從系統建設上並不復雜,但在指標的業務管理方面往往會遇到問題,因為指標系統的定位應該是全行的指標體系,系統的業務屬主由哪個部門來承擔?如何進行指標分類?對於每一個指標由哪個業務部門來維護?這也業務指標的管理往往比較難以推進,因此有些銀行建立了指標系統,但是只針對了幾個系統指標進行了管理,應用效果也發揮不出來。

        指標系統可以作為全行的一個標准服務,可以連接任何一個數據集市、應用系統。通過用戶進行隔離,如果單由一個業務部門全行推行較難,可以由各集市或數據應用的業務部門分別對各自的指標進行管理,分而治之。如果沒有業務部門介入,由各系統負責人按指標方式進行管理和計算也有助於加工規則的需求管理。便於經驗知識傳遞。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM