前言
近幾年以來,隨着互聯網+、大數據、微服務、區塊鏈、人工智能等一系列技術的出現,作為一名IT人士,如果在工作中不接觸一點這幾類技術,感覺還活在原始社會一樣。
工作中,很多技術都需要自己不斷的學習,不斷的總結,不斷的實踐,本文中,我將根據最近幾年做得一些項目,結合自學的一些相關知識,進行簡單談談我對大數據治理的架構理解。
分類
對於數據而言,業界很多公司都有相應的產品或者解決方案,但是很少有公司能夠對整個數據體系做得很全很強,綜觀其原因,首先:數據概念太過抽象,對於不同行業沒有一個明確的定義;其次,數據范疇太大,很難做全。
一般而言,企業數據從技術層面上,主要可分為三部分:元數據、主數據、業務數據。幾種數據的定義,我們采用百度百科比較權威的定義,如下:
- 元數據:元數據(Metadata)描述數據的數據,對數據及信息資源的描述性信息。
- 主數據:主數據(MD Master Data)指系統間共享數據。
- 業務數據:業務數據指系統內或系統間交易調用產生的數據。
數據的分類還有很多,本文將不再討論。有興趣的同學可以自己在百度中自行搜索。接下來,我們開始簡單探討本文的重點,數據體系架構。
架構
基於IT技術層面上數據,主要是從數據庫存儲開始,依次到數據治理、數據服務化、數據使用為止,整體架構如下:
從圖中可以看出,本架構圖主要有四層,從下往上,依次為數據庫層、數據治理層、數據服務層、業務調用層,其中數據治理層是本文的重點。
數據治理層從圖中可以看出,左側兩列是數據標准和數據質量,右側是數據交換與數據治理平台,中間是三層數據體系。
數據標准和數據質量:
對於企業而言,無論是建立一個分公司也好,建立一個部門也罷,總需要建設的標准和管控。同理對於數據而言,無論是用於自己系統交互,還是給第三方系統交互,都需要一個數據標准體系與數據質量監控體系,可能這個體系作用范圍很小,但是體系在建設過程中已經隨之建立,只是如何使用不清楚而已。因此對於數據治理而言,數據標准和數據質量體系的建設,需要整個團隊,甚至企業高層重視。數據標准和數據質量體系的建設,一般都是從上往下,一般都是CTO級別人員牽頭,進行建設。
數據交換與數據治理:
對於建立起來的數據質量和數據標准體系,如何隨着時間的推移,能夠體現在系統中,則需要相應的平台將標准及質量體系進行流程化,這就是數據交換平台與數據治理平台的用武之地。
三層數據體系:
最難理解的可能是元數據,從百度百科中定義來看,元數據是“描述數據的數據”,何為描述數據的數據,很難理解。
我這里舉個例子,每個企業都有人員信息表,具體如上面所示,可能很多人員就已經注意到了,這不就是表的定義嘛,是的,這是表的定義,但在數據領域,表的定義就是元數據,也就是描述數據的數據。那么問題來了,如果企業內出現描述數據的數據(元數據)不准確怎么辦?這個對於很多IT人員與業務人員而言,都是非常頭痛的,如果真的一旦出現了元數據不准確,那么對於后續系統的IT系統或業務系統的建設將是災難性的問題。
舉個例子,平時喜歡玩一些投資的同學都知道,如果要購買基金、債券或者股票,資金都需要托管給銀行,但是每家銀行或者基金公司都同一時期同一家IT公司承建的,在建設過程中,國家的標准、市場的標准、企業標准…等等,都會導致承建后的系統出現不同的定義字段、度量單位等,這樣就會導致多個單位或企業合作交互時,對交易字段、交易單位進行多次核對,以免出錯。我曾經在一家金融企業中供職,當時早晨很早,業務負責人打電話過來,說昨晚的財務清算有問題,差了兩千多萬,當時我們也很驚訝,財務對賬出問題,財務對賬出問題,應該找對應的業務系統,干嘛找我們服務總線,抱着配合的心態配合人家進行查問題,查到最后,發現是我們服務總線在對接基金系統的時候數據轉換出了問題(基金是FIX報文,網銀是SOAP報文),在轉換的過程中,接口文檔是基金和網銀協商的,但是協商字段映射做好了,遺漏了金額字段的單位問題,網銀是按照元為單位,而基金已分為單位,從而出現雙方金額不一致,導致財務夜間清算出現了差額。
這個問題在當時算一個三級事件,但是導致問題的原因很簡單,就是因為元數據的字段單位不一致。
再舉一個例子,還是在這個公司,當時隨着區塊鏈的發展,高層領導下達指令,由我們團隊牽頭,做服務治理及服務組合,但是在做得過程中,開始進行元數據摸底,在摸底的過程中,出現了不可思議的現象,一個賬號,在接入服務總線的系統中,居然多達一百多種定義,只英文定義就出現accountNo,accountno,accountNO,actNo…,等數幾十種定義,對於眾多的定義,面臨的直接問題就是一個完整的交易,要進行無數次的字段映射轉換,難度非常大,數據准確性難以保障。
通過以上兩個例子,可以看出,雖然在系統新建的時候,可能還能忍受,但是隨着IT建設不斷完善,系統/服務集成過程中,出現元數據的問題將會非常多,由此可見,元數據的治理還是非常重要的。
相比而言,主數據的建設,現在很多公司已經比較全面了,主數據是企業中比較穩定的數據,能夠給企業直接帶來效益。主數據的建設,通過對識別主數據,並規划及創建數據模型,從而通過采用一些數據采集工具(如ETL),將數據采集、維護並進行數據分發。
隨着業務量的不斷增大,很多系統原始的數據庫容量已經不足易容納,這樣就可以建立獨立的數據中心進行管控,業務數據中心,一般建議分兩類,近實時數據(保存1~3天),歷史數據(保存4~30天),除此之外,也可以建立大數據中心對數據進行挖掘、分析,甚至納入主數據庫中。
總結
無論對於何種數據,最終的目的均是服務於業務系統,那么就可以將元數據、主數據、業務數據以及數據標准、數據質量等相關的數據進行服務化,對業務系統進行開放,從而提升企業IT建設。
收尾
本文主要是本人根據自己的理解初次撰寫,如果有問題,歡迎各位指正,謝謝!