SQLFlow是一款專業的數據血緣關系分析工具,在大型數據倉庫中,完整的數據血緣關系可以用來進行數據溯源、表和字段變更的影響分析、數據合規性的證明、數據質量的檢查等。
一、SQLFlow 是怎樣工作的
- 從數據庫、版本控制系統、文件系統中獲取 SQL 腳本。
- 解析 SQL 腳本,分析其中的各種數據庫對象關系,建立數據血緣關系。
- 以各種形式呈現數據血緣關系,包括交互式 UI、CSV、JSON、GRAPHML 格式。
二、SQLFlow 的組成
- Backend, 后台由一系列 Java 程序組成。負責 SQL 的解析、數據血緣分析、可視化元素的布局、身份認證等。
- Frontend,前端由一系列 javascript、html 代碼組成。負責 SQL 的遞交、數據血緣關系的可視化展示。
- Grabit 工具,一個 Java 程序。負責從數據庫、版本控制系統、文件系統中收集 SQL 腳本,遞交給后台進行數據血緣分析。
- Restful API,一套完整的 API。讓用戶可以通過 Java、C#、Python、PHP 等編程語言與后台進行交互,完成數據血緣分析。
三、在線工具連接:https://sqlflow.gudusoft.com/?utm_source=cnblogs&utm_medium=blog&utm_campaign=my-nick-name#/
四、SQLFlow的job功能
1、job能做什么
SQLFlow的job功能是為客戶提供的固定血緣追溯場景所設計的,比如你有多個固定的分析邏輯,需要在工作中反復使用,此時你只需要根據具體的分析需求進行設置job即可。該job產生的邏輯關系圖屬於靜態的,不會雖倉庫中對象結構變化而變化,這樣可以更好的幫助您進行版本追溯及管理。
上圖中,做數字標記的job作業,屬性1是在工具右側面板上顯示job分析的邏輯關系圖,屬性2可以分享該job,屬性3是刪除該job。
2、如何創建job
如下圖所示:從工具job功能導航到job list頁面,點擊【upload】進行Create Job;
其中,sql source的可選來源有三種:upload file、from database、upload file+from database
這里以常用的from database方式做Create Job演示:
下圖中,是Create Job需要填寫的相關信息,其中*為必填項,有些數據庫的database屬性不是必填項,所以他不屬於必填項。
dbvendor:需要選擇的數據庫種類;
job name:一個自定義的好記的job名稱
hostname:IP或機器名
port:端口號
database:catalog name,即dbname。
usename:用戶名
password:密碼
【test connection】可以幫助您進行連接測試。
advanced的選項如下:
extractedDbsSchemas:所提取的特定schema
excludedDbsSchemas:包含的schema
extractedStoredProcedures:所提取的存儲過程名稱
extractedViews:所提取的視圖名稱
備注:高級選項都不是必填項!
當您所有信息填寫正確后,點擊【OK】即可成功創建job。
謝謝!