數據治理中的數據血緣關系是什么？用來解決什么問題

本文轉載自查看原文 2020-04-21 10:33 2000 可視化分析/ 數據倉庫/ 數據治理/ BI/ NBI大數據/ 數據中台/ 工具軟件/ 敏捷BI/ 數據血緣管理/ 大數據

前言：

數據血緣屬於數據治理中的一個概念，是在數據溯源的過程中找到相關數據之間的聯系，它是一個邏輯概念。

數據治理里經常提到的一個詞就是血緣分析，血緣分析是保證數據融合的一個手段，通過血緣分析實現數據融合處理的可追溯。大數據數據血緣是指數據產生的鏈路，直白點說，就是我們這個數據是怎么來的，經過了哪些過程和階段。

數據血緣關系的應用場景是什么：

在數據的處理過程中，從數據源頭到最終的數據生成，每個環節都可能會導致我們出現數據質量的問題。比如我們數據源本身數據質量不高，在后續的處理環節中如果沒有進行數據質量的檢測和處理，那么這個數據信息最終流轉到我們的目標表，它的數據質量也是不高的。也有可能在某個環節的數據處理中，我們對數據進行了一些不恰當的處理，導致后續環節的數據質量變得糟糕。因此，對於數據的血緣關系，我們要確保每個環節都要注意數據質量的檢測和處理，那么我們后續數據才會有優良的基因，即有很高的數據質量。

舉例說明：

現在假設你是一只數據開發工程師，為了滿足一次業務需求，，然后為了生成這張表，可能是處於程序邏輯清晰或者性能優化的考慮，你會使用很多份數據表，也會通過 MR、Spark 或者 Hive 來生產很多中間表。

如下圖，是你將花費時間來實現的整個數據流。