宜信數據中台全揭秘(一)數據中台整體介紹|分享實錄


內容來源:宜信技術學院第11期技術沙龍|宜信數據中台全揭秘(一)數據中台整體介紹

主講人:宜信數據中台解決方案架構師 裴國強
PPT下載:鏈接: https://pan.baidu.com/s/1eSkSdUo6FmYFmcE4xg0vjw 密碼: 99uh

一、數據中台定位

1.1 ADX整體簡介-中台定位


首先對中台的服務范圍說明:

  • 企業級:針對是整個企業的所有業務部門,橫向貫穿整個業務線的數據,縱向貫穿整個數據生命周期,從最開始的數據采集(DB,日志,消息,文件),入湖,標准化,開發(批量作業,流式作業)維度表,最后到數據服務和數據應用。

  • 復用:復用的范圍包括,能力的復用,邏輯的復用,數據資產的復用,算法的復用。

  • 能力:對平台能力進行抽象,對於不同平台的對能力的抽象,業務平台(流程控制,管理,審批,權限「等級,繼承」,調度),數據平台(批量,流式,UDF,UDAF,數據質量,血緣分析,數據地圖,調度,數據資產管理,權限,數據服務)。

分橫向和縱向兩個方面:

橫向划分

  • 大數據基礎集群:更貼近硬件的平台,負責提供穩定及高可用的計算運行環境,及安全的數據存儲環境

  • HDFS-數據湖的基礎存儲,存放表每天的快照,和增量數據。

  • KUDU-最新快照,用於即席查詢,數據服務,流式數據快照。

  • ClickHouse-Clickhouse做DW和DM層的存儲。

  • 數據中台 :對數據能力的抽象 ,數據的流式和批量加工,數據資產的發布,數據統一落湖,質量管理檢測,脫敏加密,統一數據出口能力。

  • 業務前台:對業務系統,業務線數據團隊,提供各種不同的數據能力。使其能在中台上沉淀企業級數據資產。

縱向划分

  • 數據管理委員會:對數據資產的質量認證,數據使用權限的授權,數據治理項目推動實施。

  • 數據運營團隊:客戶標簽,用戶畫像,產品畫像,智能推薦,精細化管理。

  • 數據安全團隊:數據脫敏加密,安全密鑰管控,數據風險的控制。

二、數據中台價值

2.1 數據中台價值

  • 快:

傳統數倉定制化報表,排期周期長,響應需求慢,重復開發工作比較多。T+1的數據失效也滿足不了現在互聯網業務場景下對數據實時處理能力的需求。對中台平台自主化開發,可以提升數據加工能力沉淀,以及實時數據處理能力。

  • 准:

數據獲取准確性,通過統一數據抽取平台對數據實時抽取,同時完成標准化,入湖,脫敏發布。通過元數據和血緣分析准確獲取數據地圖。通過模型管理和統一模型口徑。

  • 省:

節省人力成本,大大降低大數據處理的技術門檻,使用戶能夠快速上手。節省需求排期時間,使數據能更快的響應業務需求。節省硬件資源,通過對平台資源的整合,規划,節省硬件使用維護成本。

2.2 數據總線平台DBus


DBus面向大數據項目開發和管理運維人員,致力於提供數據實時采集和分發解決方案。平台采用高可用流式計算框架,提供海量數據實時傳輸,可靠多路消息訂閱分發,通過簡單靈活的配置,無侵入接入源端數據,對各個IT系統在業務流程中產生的數據進行匯集,並統一處理轉換成通過JSON描述的UMS格式,提供給不同下游客戶訂閱和消費。DBus可充當數倉平台、大數據分析平台、實時報表和實時營銷等業務的數據源。目前dbus支持的數據源包括 mysql,Orale db2,Mongo,日志系統,文件系統等。

2.3 流式處理平台Wormhole

Wormhole面向大數據項目開發和管理運維人員,致力於提供數據流式處理解決方案。平台專注於簡化和統一開發管理流程,提供可視化的操作界面,基於配置和SQL的業務開發方式,屏蔽底層技術實現細節,極大降低了開發門檻,使得大數據流式處理項目的開發和管理變得更加輕量敏捷、可控可靠。

2.4 虛擬混算服務平台Moonbox


Moonbox面向數據倉庫工程師/數據分析師/數據科學家等,致力於提供數據虛擬化解決方案。既可作為數據應用底層數據查詢計算統一入口,也可作為邏輯數據倉庫與現有數據倉庫互補。用戶只需通過統一SQL服務調用和Moonbox交互,即可透明屏蔽異構數據系統異構交互方式,輕松實現跨異構數據系統透明混算。

2.5 數據化可視應用平台Davinci


Davinci面向業務人員/數據工程師/數據分析師/數據科學家,致力於提供一站式數據可視化解決方案。既可作為公有雲/私有雲獨立部署使用,也可作為可視化插件集成到三方系統。用戶只需在可視化UI上簡單配置即可服務多種數據可視化應用,並支持高級交互/行業分析/模式探索/社交智能等可視化功能。

三、數據中台模塊架構

3.1 數據中台模塊架構


宜信中台整體底層采用wormhole+dbus+moonbox作為數據采集,加工,處理的底層引擎,通過服務的形式形成底層接口層提供數據實時處理的基礎能力,在通過對接口層的整合,形成數據加工處理的子服務,使數據中台的后台服務完成調度,鑒權,認證,監控,告警。通過對不同組件層的能力整合完成了各項數據能力批量作業編排,調度,補數,手動重啟,流式數據邏輯加工(source,lookup,transformation,union) flow在stream內的物理執行順序,流式數據落湖,流式數據回溯。

3.2 功能目錄


菜單划分
管理類(審批,庫表,團隊,規則,密鑰,監控,預警,元數據);
功能類(批量作業,流式作業,即席查詢,數據發布);
數據應用類(血緣分析,數據地圖,數據模型,數據質量)。

四、解決核心問題概覽

4.1 批量作業處理


專注於作業編輯編排,是數據項目的IDE,具體執行提交到對應中間件工具上執行。
簡單一致的IDE體驗

  • 批量作業、流式作業拖拽式編排
  • 批量作業、流式作業SQL式開發
  • 全局唯一表名,屏蔽異構數據系統
  • 開發期可驗證SQL和數據正確性

4.2 流式作業處理


主要解決數據處理流程中錯綜復雜的依賴關系。

后面的沙龍我們將詳細的介紹宜信數據中台的批量處理和流式處理功能請大家持續關注我們。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM