金融機構建設數據倉庫並非一朝一夕之事,需要投入巨大的人力物力,是整個公司戰略級的項目,本文只是結合自己的行業知識,整理下大概的建設思路。
什么是數據倉庫?來自百度百科的解釋:數據倉庫,英文名稱為Data Warehouse,可簡寫為DW或DWH。數據倉庫,是為企業所有級別的決策制定過程,提供所有類型數據支持的戰略集合。它是單個數據存儲,出於分析性報告和決策支持目的而創建。 為需要業務智能的企業,提供指導業務流程改進、監視時間、成本、質量以及控制。
從上面概念中,大概可以知道數據倉庫是用於上層分析性報告和決策支持的基石,也就是現在流行的數據中台中重要的組成部分。所以搭建好數據倉庫,是整個數據中台建設的重中之重。
數據倉庫一般分為4個層,依次是數據緩沖層-->數據整合層-->數據基礎層-->數據服務層,加上底層應用系統的數據源層,和上層分析應用的數據集市層,整個分布圖大概如下:
下面主要說明下,每個層的作用,以及層與層之前的轉換邊界問題。
數據源:主要是企業早期建立的各個獨立的業務系統或者數據中心,簡單的說就是各個數據庫DB實例。
數據緩沖層:也稱貼源層或ODS層,存儲的表數據基本和數據源一致,只是擴展了數據導入時間和導入日期,因為它的數據來源需要通過ETL從數據源層抽取轉換過來。
數據整合層:也稱模型層,這層是整個數據倉庫最重要的,它的作用是對公司的全域數據進行系統建模,相關人員必須對整個行業的業務十分熟悉,比如基金行業,需要對證券主信息標准化,證券市場信息標准化,數據字典標准化,數值(單位)標准化,記錄(數據來源)標准化等等。數據緩沖層到數據整合層,會涉及到數據的簡單清洗和轉換,但不會涉及到計算過程。關於行業標准,這里引用下《中國資本市場標准網》http://www.csisc.cn/zbscbzw/hysjmx/index_hysjmx.shtm
數據基礎層:也稱基礎指標層,從數據整合層到數據基礎層,會涉及指標因子的計算,比如持倉市值=持倉數量*收盤價,不過基本都是簡單的計算。
數據應用層:也稱指標准備層,從數據基礎層到數據應用層,會涉及指標的深度計算,比如由數據基礎層計算的收益率,延伸計算為7日收益率,成立以來收益率等等。數據基礎層形成的指標,也會直接復用到數據應用層。
數據集市:這層主要是業務場景的應用,根據具體的業務場景,由數據應用層的指標進行拼湊,形成具體的解決方案,供上層應用分析,決策。
本文只是對數據倉庫做個簡單介紹,后續有時間再針對每個點涉及的技術(比如大數據平台的應用)作深入剖析。