轉自: https://zhuanlan.zhihu.com/p/413450595
數倉建設真正的難點不在於數倉設計,而在於后續業務發展起來,業務線變的龐大之后的數據治理,而數據治理的范圍非常廣,包含數據本⾝的管理、數據安全、數據質量、數據成本等。在這么多治理內容中,大家想下最重要的治理是什么?當然是數據質量治理,因為數據質量是數據分析結論有效性和准確性的基礎,也是這一切的前提。所以如何保障數據質量,確保數據可用性是數據倉庫建設中不容忽視的環節。
數據質量涉及的范圍也很廣,貫穿數倉的整個生命周期,從數據產生->數據接入->數據存儲->數據處理->數據輸出->數據展示,每個階段都需要質量治理。
在系統建設的各個階段都應該根據標准進行數據質量檢測和規范,及時進行治理,避免事后的清洗工作。
本文首發於公眾號【五分鍾學大數據】,完整的數據治理及數倉建設文章公眾號上都有
1. 為什么要進行數據質量評估
很多剛入門的數據人,拿到數據后會立刻開始對數據進行各種探查、統計分析等,企圖能立即發現數據背后隱藏的信息和知識。然而忙活了一陣才頹然發現,並不能提煉出太多有價值的信息,白白浪費了大量的時間和精力。比如和數據打交道的過程中,可能會出現以下的場景:
場景一:作為數據分析人員,要統計一下近 7 天用戶的購買情況,結果從數倉中統計完發現,很多數據發生了重復記錄,甚至有些數據統計單位不統一。
場景二:業務看報表,發現某一天的成交 gmv 暴跌,經過排查發現,是當天的數據缺失。
造成這一情況的一個重要因素就是忽視了對數據質量的客觀評估,沒有制定合理的衡量標准,導致沒有發現數據已出現問題。所以,進行科學、客觀的數據質量衡量標准是非常必要且十分重要的。
2. 數據質量衡量標准
如何評估數據質量的好壞,業界有不同的標准,我總結了以下六個維度進行評估,包括完整性、規范性、一致性、准確性、唯一性、及時性。
- 數據完整性
完整性指的是數據信息是否存在缺失的狀況,數據缺失的情況可能是整個數據記錄缺失,也可能是數據中某個字段信息的記錄缺失。
- 數據規范性
規范性指的是描述數據遵循預定的語法規則的程度,是否符合其定義,比如數據的類型、格式、取值范圍等。
- 數據一致性
一致性是指數據是否遵循了統一的規范,數據集合是否保持了統一的格式。數據質量的一致性主要體現在數據記錄的規范和數據是否符合邏輯,一致性並不意味着數值上的絕對相同,而是數據收集、處理的方法和標准的一致。常見的一致性指標有:ID 重合度、屬性一致、取值一致、采集方法一致、轉化步驟一致。
- 數據准確性
准確性是指數據記錄的信息是否存在異常或錯誤。和一致性不一樣,存在准確性問題的數據不僅僅只是規則上的不一致,更為常見的數據准確性錯誤就如亂碼,其次異常的大或者小的數據也是不符合條件的數據。常見的准確性指標有:缺失值占比、錯誤值占比、異常值占比、抽樣偏差、數據噪聲。
- 數據唯一性
唯一性指的是數據庫的數據不存在重復的情形。比如真實成交 1 萬條,但數據表有 3000 條重復了,成了 1.3 萬條成交記錄,這種數據不符合數據唯一性。
- 數據及時性
及時性是指數據從產生到可以查看的時間間隔,也叫數據的延時時長。比如一份數據是統計離線今日的,結果都是第二天甚至第三天才能統計完,這種數據不符合數據及時性。
還有一些其他的衡量標准,在此簡單列出:
維度 | 衡量標准 |
---|
3. 數據質量管理流程
本節流程如下圖所示:
1. 數據資產等級
1) 等級定義
根據當數據質量不滿足完整性、規范性、一致性、准確性、唯一性、及時性時,對業務的影響程度大小來划分數據的資產等級。
- 毀滅性:數據一旦出錯,會引起巨大的資產損失,面臨重大收益受損等。標記為 L1
- 全局性:數據用於集團業務、企業級效果評估和重要決策任務等。標記為 L2
- 局部性:數據用於某個業務線的日常運營、分析報告等,如果出現問題會給該業務線造成一定的影響或影響其工作效率。標記為 L3
- 一般性:數據用於日常數據分析,出現問題的帶來的影響很小。標記為 L4
- 未知性質:無法追溯數據的應用場景。標記為 Lx
重要程度:L1>L2>L3>L4>Lx。如果一份數據出現在多個應用場景中,則根據其最重要程度進行標記。
2) 等級划分
定義數據資產等級后,我們可以從數據流程鏈路開始進行數據資產等級標記,完成數據資產等級確認,給不同的數據定義不同的重要程度。
1. 分析數據鏈路:
數據是從業務系統中產生的,經過同步工具進入數據倉庫系統中,在數據倉庫中進行一般意義上的清洗、加工、整合、算法、模型等一系列運算后,再通過同步工具輸出到數據產品中進行消費。而從業務系統到數據倉庫再到數據產品都是以表的形式體現的,其流轉過程如下圖所示:
2. 標記數據資產等級:
在所有數據鏈路上,整理出消費各個表的應用業務。通過給這些應用業務划分數據資產等級,結合數據的上下游依賴關系,將整個鏈路打上某一類資產等級標簽。
舉例:
假設公司有統一的訂單服務中心。應用層的應用業務是按照業務線,商品類型和地域統計公司的訂單數量和訂單金額,命名為order_num_amount
。
假設該應用會影響到整個企業的重要業務決策,我們可以把應用定級為 L2,從而整個數據鏈路上的表的數據等級,都可以標記為L2-order_num_amount
,一直標記到源數據業務系統,如下圖所示:
2. 數據加工過程卡點校驗
1) 在線系統數據校驗
在線業務復雜多變,總是在不斷地變更,每一次變更都會帶來數據的變化,數據倉庫需要適應這多變的業務發展,及時做到數據的准確性。
基於此,在線業務的變更如何高效地通知到離線數據倉庫,同樣也是需要考慮的問題。為了保障在線數據和離線數據的一致性,我們可以通過工具+人員管理並行的方式來盡可能的解決以上問題:既要在工具上自動捕捉每一次業務的變化,同時也要求開發人員在意識上自動進行業務變更通知。
1. 業務上線發布平台:
監控業務上線發布平台上的重大業務變更,通過訂閱這個發布過程,及時將變更內容通知到數據部門。
由於業務系統復雜多變,若日常發布變更頻繁,那么每次都通知數據部門,會造成不必要的資源浪費。這時,我們可以使用之前已經完成標記的數據資產等級標簽,針對涉及高等級數據應用的數據資產,整理出哪些類型的業務變更會影響數據的加工或者影響數據統計口徑的調整,則這些情況都必須及時通知到數據部門。
如果公司沒有自己的業務發布平台,那么就需要與業務部門約定好,針對高等級的數據資產的業務變更,需要以郵件或者其他書面的說明及時反饋到數據部門。
2. 操作人員管理:
工具只是輔助監管的一種手段,而使用工具的人員才是核心。數據資產等級的上下游打通過程需要通知給在線業務系統開發人員,使其知道哪些是重要的核心數據資產,哪些暫時還只是作為內部分析數據使用,提高在線開發人員的數據風險意識。
可以通過培訓的方式,把數據質量管理的訴求,數據質量管理的整個數據加工過程,以及數據產品的應用方式及應用場景告知在線開發人員,使其了解數據的重要性、價值及風險。確保在線開發人員在完成業務目標的同時,也要考慮數據的目標,保持業務端和數據段一致。
2) 離線系統數據校驗
數據從在線業務系統到數據倉庫再到數據產品的過程中,需要在數據倉庫這一層完成數據的清洗、加工。正是有了數據的加工,才有了數據倉庫模型和數據倉庫代碼的建設。如何保障數據加過程中的質量,是離線數據倉庫保障數據質量的一個重要環節。
在這些環節中,我們可以采用以下方式來保障數據質量:
- 代碼提交核查:
開發相關的規則引擎,輔助代碼提交校驗。規則分類大致為:
- 代碼規范類規則:如表命名規范、字段命名規范、生命周期設置、表注釋等;
- 代碼質量類規則:如分母為 0 提醒、NUll 值參與計算提醒等;
- 代碼性能類規則:如大表提醒、重復計算監測、大小表 join 操作提醒等。
- 代碼發布核查:
加強測試環節,測試環境測試后再發布到生成環境,且生成環境測試通過后才算發布成功。
- 任務變更或重跑數據:
在進行數據更新操作前,需要通知下游數據變更原因、變更邏輯、變更時間等信息。下游沒有異議后,再按照約定時間執行變更發布操作。
3. 數據處理風險監控
風險點監控主要是針對數據在日常運行過程中容易出現的風險進行監控並設置報警機制,主要包括在線數據和離線數據運行風險點監控。
1) 數據質量監控
在線業務系統的數據生產過程需要保證數據質量,主要根據業務規則對數據進行監控。
比如交易系統配置的一些監控規則,如訂單拍下時間、訂單完結時間、訂單支付金額、訂單狀態流轉等都配置了校驗規則。訂單拍下時間肯定不會大於當天時間,也不會小於業務上線時間,一旦出現異常的訂單創建時間,就會立刻報警,同時報警給到多人。通過這種機制,可以及時發現並解決問題。
隨着業務負責程度的提升,會導致規則繁多、規則配置的運行成本增大,這時可以按照我們之前的數據資產等級有針對性的進行監控。
離線數據風險點監控主要包括對數據准確性和數據產出及時性的監控。對數據調度平台上所有數據處理調度進行監控。
我們以阿里的 DataWorks 數據調度工具為例,DataWorks 是基於 MaxCompute 計算引擎的一站式開發工場,幫助企業快速完成數據集成、開發、治理、質量、安全等全套數據研發工作。
DataWorks 中的 DQC 通過配置數據質量校驗規則,實現離線數據處理中的數據質量監控報警機制。
下圖是 DQC 的工作流程圖:
DQC 數據監控規則有強規則和弱規則:
- 強規則:一旦觸發報警就會阻斷任務的執行(將任務置為失敗狀態,使下游任務不會被觸發執行)。
- 弱規則:只報警但不阻斷任務的執行。
DQC 提供常用的規則模板,包括表行數較 N 天前波動率、表空間大小較 N 天前波動率、字段最大/最小/平均值相比 N 天前波動率、字段空值/唯一個數等。
DQC 檢查其實也是運行 SQL 任務,只是這個任務是嵌套在主任務中的,一旦檢查點太多自然就會影響整體的性能,因此還是依賴數據產等級來確定規則的配置情況。比如 L1、L2 類數據監控率要達到 90% 以上,規則類型需要三種及以上,而不重要的數據資產則不強制要求。
2) 數據及時性監控
在確保數據准確性的前提下,需要進一步讓數據能夠及時地提供服務,否則數據的價值將大幅度降低,甚至沒有價值,所以確保數據及時性也是保障數據質量重中之重的一環。
- 任務優先級:
對於DataWorks平台的調度任務,可以通過智能監控工具進行優先級設置。DataWorks的調度是一個樹形結構,當配置了葉子節點的優先級,這個優先級會傳遞到所有的上游節點,而葉子節點通常就是服務業務的消費節點。
因此,在優先級的設置上,要先確定業務的資產等級,等級越高的業務對應的消費節點優先級越高,優先調度並占用計算資源,確保高等級業務的准時產出。
總之,就是按照數據資產等級優先執行高等級數據資產的調度任務,優先保障高等級業務的數據需求。
- 任務報警:
任務報警和優先級類似,通過DataWorks的智能監控工具進行配置,只需要配置葉子節點即可向上游傳遞報警配置。任務執行過程中,可能出錯或延遲,為了保障最重要數據(即資產等級高的數據)產出,需要立即處理出錯並介入處理延遲。
- DataWorks智能監控:
DataWorks進行離線任務調度時,提供智能監控工具,對調度任務進行監控告警。根據監控規則和任務運行情況,智能監控決策是否報警、何時報警、如何報警以及給誰報警。智能監控會自動選擇最合理的報警時間、報警方式以及報警對象。
4. 最后
要想真正解決數據質量問題,就要明確業務需求並從需求開始控制數據質量,並建立數據質量管理機制。從業務出發做問題定義,由工具自動、及時發現問題,明確問題責任人,通過郵件、短信等方式進行通知,保證問題及時通知到責任人。跟蹤問題整改進度,保證數據質量問題全過程的管理。