數據質量評估
在做了近一個多月的數據質量評估方案工作,基本實現了從產出原始數據、數據清洗、入庫有效數據等階段,從對質量沒有任何概念到實現基本的指標展示,也算是從設計到代碼到展示的流程跑通,在一定程度已經能體現公司目前的數據質量
1.為什么做數據質量?
公司數據是從Excel挖掘出來的,不確定性與未知性,准確性沒有評判的標准,提供給其他部門不能直接體現數據的好壞,做這件事是非常有必要2
2.從0開始思考怎么做數據質量
對於大多數公司的數據來說,數據格式較為固定,埋點數據或者業務數據都是進行專門的定義,比如商品id為數字,性別用0,1表示,但對於挖掘或者提取到的數據來說,字段的類型格式、長度及語義都可能存在差異,這就需要數據清洗重新規范格式。
3.數據質量計算及流程
離線流程:
實時:
5.思考指標與維度
6.實時的數據質量監控十分有必要,在清洗入倉時進行指標疊加統計監控,如果某些指標超出某些范圍,直接前台報警,業務人員進行數據源排查、
實時方面在做全局去重及一些復雜指標是一個比較難處理的問題,因為全局去重會去歷史數據進行碰撞與實時性沖突,目前想到的是晚上對前一天的入庫數據進行離線跑批計算,
再就是使用redis結合bitmap進行去重(還未實現,大數據量可能會影響結果丟失掉數據)