SQLFlow 是用於追溯數據血緣關系的工具,它自誕生以來以幫助成千上萬的工程師即用戶解決了困擾許久的數據血緣梳理工作。
數據庫中視圖(View)的數據來自表(Table)或其他視圖,視圖中字段(Column)的數據可能來自多個表中多個字段的聚集(aggregation)。 表中的數據可能通過ETL從外部系統中導入。這種從數據的源頭經過各個處理環節,到達數據終點的數據鏈路關系稱為數據血緣關系(data lineage)。
SQLFlow 通過分析各種數據庫對象的定義(DDL)、DML 語句、ETL/ELT中使用的存儲過程(Proceudre,Function)、 觸發器(Trigger)和其他 SQL 腳本,給出完整的數據血緣關系。
在大型數據倉庫中,完整的數據血緣關系可以用來進行數據溯源、表和字段變更的影響分析、數據合規性的證明、數據質量的檢查等。
本文主要介紹SQLFlow中的Setting,下圖展示了Setting的主要選項。其中,dataflow和show intermediate recordset是默認開啟選項。
- hide all columns:隱藏列,僅顯示對象間的邏輯關聯關系;
- dataflow:顯示數據流的方向;
- impact:顯示對象間的關聯邏輯,使用虛線顯示,並新增虛擬關聯字段;
- show intermediate recordset:顯示中間記錄集;
- show function:在邏輯關系中顯示調用的函數。
備注:dataflow和impact屬性可以同時存在,任何情況下,他們兩者至少選擇一種,不可均不選擇。
下面,展示主要屬性的使用:
開啟:hide all columns
開啟Impact選項:
開啟show function選項:
好了,篇幅關系,Setting部分今天就先介紹到這里,以后會持續更新。