我們從以下幾個維度對數據質量問題進行描述。
1.准確性
數據與客觀實際要相符,即使數據項為空,也盡量不提供錯誤或者失真的數據。
2.合理性
數據要符合數據模型的定義和描述,且與常理不相違背。
3.一致性
如果同一個數據存在多處存儲,那么數據及數據內容需要保持一致。
4.重復性
在同一個存儲區域內,同樣的一條記錄應該避免重復
5.及時性
數據應該能夠反映客觀實體的當前狀況。
6.完備性
數據要完備,要沒有記錄數量上的缺失和必要關鍵數據項的內容缺失。
我們將數據以實體數據(以下稱為主數據)數據、業務指標和實體標簽數據(統計結果數據)這四個層次在六個維度上形成一個二維表格,並將所見到的數據質量問題的情況逐一填寫到對應的表格中(表1~表6)。
表1
數據展次 |
准確性問題 |
主數據 |
(1)定義不准確,各自定義。比如,對客戶的定義,有的理解為包含潛在客戶,有的僅僅理解為會員。 |
交易數據 |
數據不准確,存在臟數據,記錄與事實不着 |
行為數據 |
數架噪聲大 |
業務指標和實體標簽數據 |
定義不准璃,計算口徑、取數口徑各自為政。比如,對同一個指標、不同的部門有不同的定義 |
表2
數據展次 |
合理性問題 |
主數據 |
(1)數據管理不合規,存在多頭管理或無人管理。比如,銷售部門和客戶中心都可以管理客戶信息,重復維護。 |
交易數據 |
—— |
行為數據 |
—— |
業務指標和實體標簽數據 |
(1)無數據定義規范。 |
表 3
數據展次 |
一致性問題 |
主數據 |
(1)數據存在多個版本,同一個主數據的內容不一致。比如,員工賬戶信息在每個應用系統中都各自定義,賬戶不統一。 |
交易數據 |
(1)數據內容前后不一致,有沖突。比如,在客戶數據中存在性別信息,但是填寫的內容和身份證信息中的性別信息沖突。 |
行為數據 |
—— |
業務指標和實體標簽數據 |
數據定義不一致 |
表4
數據展次 |
重復性問題 |
主數據 |
在同一個集合內,數據被重復記錄 |
交易數據 |
在同一次交易中,數據被重復記錄 |
行為數據 |
存在技術問題,數據被大量重復記錄 |
業務指標和實體標簽數據 |
—— |
表5
數據展次 |
及時性問題 |
主數據 |
(1)數據被多頭維護。存在多個歷史版本,內容不能反映當前情況。比如對於職工數據中的所在部門屬性,由於員工調動和維護不及時存在多種內容。 |
交易數據 |
事后補錄數據,數據維護不及時。比如,在房地產行業中,房屋銷售數據經常在事后被一次性補錄,或者根據業務需要自行決定錄入時間 |
行為數據 |
—— |
業務指標和實體標簽數據 |
(1)數據化原因導致數據無法獲得。 |
表 6
數據展次 |
完備性問題 |
主數據 |
無法回答企業中存在多少個“客戶”“供應商”“設備”“項目”等問題,缺少數據全局視圖 |
交易數據 |
—— |
行為數據 |
由於技術問題導致行為數據大量缺失,如埋點服務器宕機導致數據不全 |
業務指標和實體標簽數據 |
—— |
對於數據質量的提升,以往的做法是在數據倉庫中進行各種“清洗”操作,但是這種方法治標不治本,而且在數據中台上的各種美化都屬於后期的人為干預,這樣的干預有時候本身就是一種錯誤。所以,我們寄希望於通過數據質量管理,進行治本的操作。