在銀行日常經營中,每個部門、分支行隨時隨地都需要進行數據統計和分析,才能對銀行當前業務狀況及時了解,以進行后續經營策略、營銷活動、風險策略的調整和決策。那在平時進行數據分析時除了各數據應用系統(如各類監管報表系統、財務系統、營銷系統等)進行專門的數據加工和操作,主要還有報表和自助分析2種方式來分析數據,支持業務運行。
1、統計報表
統計報表是最常用的數據分析方式,按業務需求中確定的維度和屬性進行數據加工並展示。報表周期最常見的是按天、月、年來統計,也有部分按周、季、半年來統計。所以日期或周期是每個報表中都有的維度。另外在大部分銀行中還有一個重要的維度是支行,因為支行是最底層的經營機構,許多分析都會支行級別。但在互聯網銀行沒有網點,所以更多的是按地區來統計,因為各地區的政策、環境有所不同,也需要重點關注業務在各地區的發展和問題。
那報表平台重點需要考慮的功能有:
(1)報表的圖形化展示:現在許多報表工具除了常規的柱狀圖、餅圖、折線圖等,也提供很多展示方式和非常酷炫的界面設計,如熱力圖、地圖、軌跡圖等。可以讓數據分析結果更一目了然。
(2)明細數據快速查詢:報表平台匯總數據的報表較多,但隨着交易系統的功能優化,越來越多的明細數據查詢也轉移到報表系統中,如櫃面交易明細、大額支付系統交易明細等,因此報表平台也需要支持大批量數據快速查詢的需求,在工具選擇或優化中需要考慮到該功能。
(3)移動端報表:移動端報表目前也是趨勢之一,但手機屏幕較小,展示信息有限,目前只展示及時性高但比較簡單的匯總的數據。移動端可以在APP實現,也可以在微信通過公眾號或企業號來實現。
(4)郵件報表:郵件系統每家銀行都在使用,而且都有看郵件的習慣,因此從使用者的角度來看非常方便,因此許多經營日報是直接通過郵件發出,所以需要將展示的報表通過截圖或HTML方式嵌入到郵件中主動發送給用戶。
(5)電子報表:電子報表主要是指按一定格式導出到文件並壓縮,各網點業務人員需要自己下載進行分析或直接上報給當地的監管機構。電子報表一般是明細數據,可能含有敏感的客戶信息,因此這個數據需要行內安全進行審核。
(6)管理駕駛倉:管理駕駛倉指將反映全行或全公司業績的主要的指標進行匯總展示,它不僅僅限於單個部門,而是涉及公司所有的經營業務條線。因此它也經常是報表系統進入后的首頁面,或者是公司大屏展示的界面。
(7)電子報告,這個功能是將結果數據進行自動轉化為的分析報告,這個主要通過模板進行填充,目前只能展示基本信息和簡單分析,更多的分析還是需要人工補充。目前使用還比較少,但隨着AI技術的發展,后續也可能會越來越智能。
(8)自助查詢:自助查詢是指提供一個寬表多維度的數據,由業務人員可以通過系統直接進行篩選、鑽取或者可寫sql進行查詢統計。鑽取是改變維的層次,變換分析的粒度。它包括向上鑽取和向下鑽取。向上鑽取是在某一維上將低層次的細節數據概括到高層次的匯總數據,或者減少維數。如從分析上海的客戶貸款上鑽到所有網點城市;而向下鑽取則相反,它從匯總數據深入到細節數據進行觀察或增加新的維度。例如,分析“各支行、存款情況”時,可以對某一個支行的存款余額細分為各個存款產品(活期、1年定期、3年定期等)進行分析。通過鑽取的功能,使用戶能更靈活進行數據分析。
那自助查詢首先需要加工好多維度的寬表,也稱為CUBE。如果維度太多且數據量太大則加工效率會比較高,如果是實時根據條件篩選則需要依賴數據平台的處理能力。因此需要根據數據量進行平台和服務器資源的選擇。
第2節系統架構中也提到了幾個常見的商用及開源報表軟件,在報表軟件選型部署和架構設計時還需要重點關注:
(1)作為一個公共服務提供給全行使用:可以連接任何的數據庫或大數據平台,同時可以將展現的報表無縫嵌入到數據應用系統或交易系統中。
(2)技術選型中盡量統一平台,減少運維成本和軟件成本,部署可以根據報表數量及數據量按部門分為多套也可以集中在一套環境中。
(3)報表平台建設時需要進行需求管理並重點監控報表的使用率,一個銀行或公司並不是報表越多越好,更重要在於使用和分析效果,因此對於各部門的報表需求需要統一管理,對於重復或相似的需求盡量復用報表,減少工作量投入。對於一些不使用的報表進行下線,以便釋放計算資源和存儲資源。由於業務部門人員變化和產品變化,一些報表不再使用但業務人員往往會疏忽下線流程。因此定期出使用率的報告可以及時暫停不使用的報表。
2、數據自助分析平台/數據實驗室
報表是各個銀行部門最常使用的方式,但隨着互聯網的加快融合,數據分析越來越復雜,分析工具和算法也越來越豐富,而且業務人員的分析技能也提升很大,那傳統的報表已經不能滿足數據分析的需要,因此許多銀行都為業務人員提供了自助的數據分析平台,有的銀行也稱為數據實驗室。那在建設數據分析平台時需要關注:
(1)由於分析的數據量大且有敏感信息,拿到測試環境進行分析不僅耗時長且存在數據脫敏不足導致敏感數據泄露的風險,因此數據分析平台都是在生產環境搭建;
(2)數據分析平台的數據源為數據倉庫,為了不影響數據倉庫生產環境批處理,因此需要在物理上將數據分析平台和數據倉庫進行隔離。同時數據倉庫與數據分析平台需要建立快速的數據通道,以便每天更新數據分析平台數據;
(3)不同的業務部門為了集約資源,減少重復數據的存儲,可以統一在一個物理平台進行數據分析,但必須通過用戶以及權限進行數據隔離。由於分析經常會使用明細數據以及數據倉庫加工后的數據,因此數據量比較大,一般也會使用MPP數據庫或大數據平台進行數據分析。
(4)數據分析工具:業務人員一般會需要使用到SAS、PYTHON、R等分析工具,現在也有很多AI廠商或數據分析工具廠商提供的自助分析工具,這些工具需要安裝好給業務人員使用。同時也要統一管理這些工具的版本以及license。
(5)數據脫敏工具:由於敏感信息不能直接給到業務人員進行數據分析,如內部員工工資、客戶聯系方式等,因此對於每個敏感字段需要配置脫敏規則(可以在元數據管理平台實現),並在從數據倉庫導出時自動調用脫敏工具進行脫敏。
(6)數據獲取管理工具:分析平台從數據倉庫導出到分析平台時,一般會有數據審核,因為不同部門之間數據是各自管理,需要系統和數據的主管部門知曉並同意。可以基於元數據管理平台增加數據訂單的功能,由業務部門使用人員選取需要分析的數據表、更新周期等信息,然后提交申請,審批后自動進行調用脫敏和數據傳輸工具傳輸數據。
(7)數據分層:數據分析平台一般分為基礎數據層和分析層,基礎數據層是從數據倉庫導入的基礎數據,數據不能修改,業務人員只能通過申請權限后才能訪問。分析層是給每位業務用戶進行自助分析的空間,保留分析過程中和結果數據。對於分析層中的空間也需要進行空間控制和定期監控,以免存儲不足導致業務不能分析。
(8)數據導出,業務分析結果一般需要導出到辦公環境,因此也需要有掃描工具或審批,以免敏感數據未經允許從生產導出。