數據治理中的數據血緣關系是什么?用來解決什么問題


前言:
數據血緣屬於數據治理中的一個概念,是在數據溯源的過程中找到相關數據之間的聯系,它是一個邏輯概念。
數據治理里經常提到的一個詞就是血緣分析,血緣分析是保證數據融合的一個手段,通過血緣分析實現數據融合處理的可追溯。大數據數據血緣是指數據產生的鏈路,直白點說,就是我們這個數據是怎么來的,經過了哪些過程和階段。
 
數據血緣關系的應用場景是什么:
在數據的處理過程中,從數據源頭到最終的數據生成,每個環節都可能會導致我們出現數據質量的問題。比如我們數據源本身數據質量不高,在后續的處理環節中如果沒有進行數據質量的檢測和處理,那么這個數據信息最終流轉到我們的目標表,它的數據質量也是不高的。也有可能在某個環節的數據處理中,我們對數據進行了一些不恰當的處理,導致后續環節的數據質量變得糟糕。因此,對於數據的血緣關系,我們要確保每個環節都要注意數據質量的檢測和處理,那么我們后續數據才會有優良的基因,即有很高的數據質量。
 
舉例說明:
現在假設你是一只數據開發工程師,為了滿足一次業務需求,,然后為了生成這張表,可能是處於程序邏輯清晰或者性能優化的考慮,你會使用很多份數據表,也會通過 MR、Spark 或者 Hive 來生產很多中間表。
如下圖,是你將花費時間來實現的整個數據流。
  • 其中 Table X 是最終給到業務側的表。
  • 藍色的 Table A-E,是原始數據。
  • 黃色的 Table F-I 是你計算出來的中間表。這些表都是你自己寫程序要處理的表。
  • 然后你為了懶省事,嗯,應該說本着不重復開發的原則,你還要用到同事小伙伴處理的表,Table J 就是別人處理過的結果表。
過了一段時間后,業務側的感覺你提供的數據中有個字段總是不太對勁,其實就是懷疑你的數據出問題!需要你來追蹤一下這個字段的來源。
首先你從 Table X 中找到了異常的字段,然后定位到了它來源於 Table I,再從 Table I 定位到了它來源於 Table G, 再從 Table G 追溯到了 Table D,最終發現是某幾天的來源數據有異常。
或者說,你從 Table X 定位到了異常的字段原來來自於其它小伙伴處理的表 Table J,然后繼續向前回溯,找到了這張表在處理過程中的某一個步出現了問題。
 
我們如何將數據血緣關系進行可視化呢:
在NBI大數據可視化平台中我們可以通過桑基圖方式來對數據關系鏈路來分析:
 
在NBI大數據可視化平台中只需通過拖拽組件和字段即可快速生成桑基圖
(1)從組件庫中拖入桑基圖組件到編輯器中:
(2)組件右鍵,設置數據數據和樣式,即可完成數據的呈現:
 

更多信息請參考(


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM