如何評估數據質量?


   數據質量評估

在做了近一個多月的數據質量評估方案工作,基本實現了從產出原始數據、數據清洗、入庫有效數據等階段,從對質量沒有任何概念到實現基本的指標展示,也算是從設計到代碼到展示的流程跑通,在一定程度已經能體現公司目前的數據質量

1.為什么做數據質量?

公司數據是從Excel挖掘出來的,不確定性與未知性,准確性沒有評判的標准,提供給其他部門不能直接體現數據的好壞,做這件事是非常有必要2

2.從0開始思考怎么做數據質量

  對於大多數公司的數據來說,數據格式較為固定,埋點數據或者業務數據都是進行專門的定義,比如商品id為數字,性別用0,1表示,但對於挖掘或者提取到的數據來說,字段的類型格式、長度及語義都可能存在差異,這就需要數據清洗重新規范格式。

3.數據質量計算及流程

離線流程:

 

實時:

 

 5.思考指標與維度

 

 

 

 6.實時的數據質量監控十分有必要,在清洗入倉時進行指標疊加統計監控,如果某些指標超出某些范圍,直接前台報警,業務人員進行數據源排查、

實時方面在做全局去重及一些復雜指標是一個比較難處理的問題,因為全局去重會去歷史數據進行碰撞與實時性沖突,目前想到的是晚上對前一天的入庫數據進行離線跑批計算,

再就是使用redis結合bitmap進行去重(還未實現,大數據量可能會影響結果丟失掉數據)

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM