我们从以下几个维度对数据质量问题进行描述。
1.准确性
数据与客观实际要相符,即使数据项为空,也尽量不提供错误或者失真的数据。
2.合理性
数据要符合数据模型的定义和描述,且与常理不相违背。
3.一致性
如果同一个数据存在多处存储,那么数据及数据内容需要保持一致。
4.重复性
在同一个存储区域内,同样的一条记录应该避免重复
5.及时性
数据应该能够反映客观实体的当前状况。
6.完备性
数据要完备,要没有记录数量上的缺失和必要关键数据项的内容缺失。
我们将数据以实体数据(以下称为主数据)数据、业务指标和实体标签数据(统计结果数据)这四个层次在六个维度上形成一个二维表格,并将所见到的数据质量问题的情况逐一填写到对应的表格中(表1~表6)。
表1
数据展次 |
准确性问题 |
主数据 |
(1)定义不准确,各自定义。比如,对客户的定义,有的理解为包含潜在客户,有的仅仅理解为会员。 |
交易数据 |
数据不准确,存在脏数据,记录与事实不着 |
行为数据 |
数架噪声大 |
业务指标和实体标签数据 |
定义不准璃,计算口径、取数口径各自为政。比如,对同一个指标、不同的部门有不同的定义 |
表2
数据展次 |
合理性问题 |
主数据 |
(1)数据管理不合规,存在多头管理或无人管理。比如,销售部门和客户中心都可以管理客户信息,重复维护。 |
交易数据 |
—— |
行为数据 |
—— |
业务指标和实体标签数据 |
(1)无数据定义规范。 |
表 3
数据展次 |
一致性问题 |
主数据 |
(1)数据存在多个版本,同一个主数据的内容不一致。比如,员工账户信息在每个应用系统中都各自定义,账户不统一。 |
交易数据 |
(1)数据内容前后不一致,有冲突。比如,在客户数据中存在性别信息,但是填写的内容和身份证信息中的性别信息冲突。 |
行为数据 |
—— |
业务指标和实体标签数据 |
数据定义不一致 |
表4
数据展次 |
重复性问题 |
主数据 |
在同一个集合内,数据被重复记录 |
交易数据 |
在同一次交易中,数据被重复记录 |
行为数据 |
存在技术问题,数据被大量重复记录 |
业务指标和实体标签数据 |
—— |
表5
数据展次 |
及时性问题 |
主数据 |
(1)数据被多头维护。存在多个历史版本,内容不能反映当前情况。比如对于职工数据中的所在部门属性,由于员工调动和维护不及时存在多种内容。 |
交易数据 |
事后补录数据,数据维护不及时。比如,在房地产行业中,房屋销售数据经常在事后被一次性补录,或者根据业务需要自行决定录入时间 |
行为数据 |
—— |
业务指标和实体标签数据 |
(1)数据化原因导致数据无法获得。 |
表 6
数据展次 |
完备性问题 |
主数据 |
无法回答企业中存在多少个“客户”“供应商”“设备”“项目”等问题,缺少数据全局视图 |
交易数据 |
—— |
行为数据 |
由于技术问题导致行为数据大量缺失,如埋点服务器宕机导致数据不全 |
业务指标和实体标签数据 |
—— |
对于数据质量的提升,以往的做法是在数据仓库中进行各种“清洗”操作,但是这种方法治标不治本,而且在数据中台上的各种美化都属于后期的人为干预,这样的干预有时候本身就是一种错误。所以,我们寄希望于通过数据质量管理,进行治本的操作。