數據質量的常見問題


我們從以下幾個維度對數據質量問題進行描述。

1.准確性

    數據與客觀實際要相符,即使數據項為空,也盡量不提供錯誤或者失真的數據。

2.合理性

    數據要符合數據模型的定義和描述,且與常理不相違背。

3.一致性

    如果同一個數據存在多處存儲,那么數據及數據內容需要保持一致。

4.重復性

    在同一個存儲區域內,同樣的一條記錄應該避免重復

5.及時性

    數據應該能夠反映客觀實體的當前狀況。

6.完備性

    數據要完備,要沒有記錄數量上的缺失和必要關鍵數據項的內容缺失。

    我們將數據以實體數據(以下稱為主數據)數據、業務指標和實體標簽數據(統計結果數據)這四個層次在六個維度上形成一個二維表格,並將所見到的數據質量問題的情況逐一填寫到對應的表格中(表1~表6)。

1

數據展次

准確性問題

主數據

(1)定義不准確,各自定義。比如,對客戶的定義,有的理解為包含潛在客戶,有的僅僅理解為會員。
(2)在數據模型中對屬性的理解不一致。比如,對門店面積的定義,有的填寫門店的實際面積,有的填寫經營面積。
(3)數內容不准確,被隨意填寫。比如,在客戶信息中,對客戶姓名、年齡、住址等內容隨意填寫

交易數據

數據不准確,存在臟數據,記錄與事實不着

行為數據

數架噪聲大

業務指標和實體標簽數據

定義不准璃,計算口徑、取數口徑各自為政。比如,對同一個指標、不同的部門有不同的定義

 

2

數據展次

合理性問題

主數據

(1)數據管理不合規,存在多頭管理或無人管理。比如,銷售部門和客戶中心都可以管理客戶信息,重復維護。
(2)數據使用不合規,存在泄漏風險。比如,所有客戶名單數據都星露在FTP 服務器中。
(3)數據共享不合規,無技術規范

交易數據

——

行為數據

——

業務指標和實體標簽數據

(1)無數據定義規范。
(2)數據在使用過程中存在泄漏風險

 

3

數據展次

一致性問題

主數據

(1)數據存在多個版本,同一個主數據的內容不一致。比如,員工賬戶信息在每個應用系統中都各自定義,賬戶不統一。
(2)多頭定義,數據及數據屬性定義不一致

交易數據

(1)數據內容前后不一致,有沖突。比如,在客戶數據中存在性別信息,但是填寫的內容和身份證信息中的性別信息沖突。
(2)數據內容與數據模型定義不一致。比如,用於記錄產品的表格,記錄了“門店裝修返款”

行為數據

——

業務指標和實體標簽數據

數據定義不一致

 

4

數據展次

重復性問題

主數據

在同一個集合內,數據被重復記錄

交易數據

在同一次交易中,數據被重復記錄

行為數據

存在技術問題,數據被大量重復記錄

業務指標和實體標簽數據

——

 

5

數據展次

及時性問題

主數據

(1)數據被多頭維護。存在多個歷史版本,內容不能反映當前情況。比如對於職工數據中的所在部門屬性,由於員工調動和維護不及時存在多種內容。
(2)數據維護不及時,當前內容與真實情況不符。比如,客戶信息中的“稅號”信息。

交易數據

事后補錄數據,數據維護不及時。比如,在房地產行業中,房屋銷售數據經常在事后被一次性補錄,或者根據業務需要自行決定錄入時間

行為數據

——

業務指標和實體標簽數據

(1)數據化原因導致數據無法獲得。
(2)數據結果獲取緩慢,以周或者月為獲取時間單位不滿足業務需求

 

6

數據展次

完備性問題

主數據

無法回答企業中存在多少個“客戶”“供應商”“設備”“項目”等問題,缺少數據全局視圖

交易數據

——

行為數據

由於技術問題導致行為數據大量缺失,如埋點服務器宕機導致數據不全

業務指標和實體標簽數據

——

    對於數據質量的提升,以往的做法是在數據倉庫中進行各種“清洗”操作,但是這種方法治標不治本,而且在數據中台上的各種美化都屬於后期的人為干預,這樣的干預有時候本身就是一種錯誤。所以,我們寄希望於通過數據質量管理,進行治本的操作。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM