問題
我們的組織每天都會接收和傳輸業務關鍵流程的數據,並將其傳輸給眾多合作伙伴,供應商,客戶,供應商等。在將數據加載到我們的SQL Server環境之前,需要對我們的數據進行驗證和清理。我們已經與SQL Server DBA和開發人員進行了大量投資,以使流程盡可能地自動化。不幸的是,我們一直在朝着不斷變化的目標進行射擊,即每個系統之間的文件格式不同,我們經常會得到意想不到的文件格式(數據被添加,刪除或重新排序),組織之間要求提供新數據,並且情況更加不可預測。最重要的是,我們需要確保對數據有充分了解的數據管理員正確地審核了所有數據。
不斷變化的數據管理目標往往使SQL Server DBA和開發人員不知所措,需要立即響應以更新驗證和導入代碼,然后加載數據以滿足組織之間的業務需求。我們如何才能兩全其美?讓我們的SQL Server DBA和開發人員構建一個系統來支持組織,同時為我們的數據管理員提供在生產負載之前靈活地驗證和清除數據的靈活性,而無需我們技術團隊的深入編程知識。
解
使用SQL Server數據平台,大多數DBA和開發人員都可以使用SQL Server集成服務(SSIS),Azure數據工廠(ADF),BIML,XML,JSON或T-SQL代碼。借助標准化的文件,格式和數據,這些技術能夠使繁瑣的流程自動化。SQL Server技術人員能夠在節省整個組織的時間方面發光並顯示其價值。
不幸的是,由於流程之間不斷變化的營銷程序,系統更新,短期程序,產品線的變化,通過眾多供應商的履行等原因,許多流程很難實現系統之間的日常更改。從技術角度來看,這可以看作是SSIS的噩夢, 其中包含數百個笨拙的程序包,版本控制崩潰以及數不盡的時間試圖自動化快速發展的流程。這些情況很快使SQL Server技術人員感到沮喪,並且可以從與應用程序所有者,數據管理員和超級用戶的協作中受益,他們可以解密數據並與其他組織進行交互以完成整個過程。
那么,如何避免SSIS噩夢?讓技術人員自動化標准化流程,並為數據管理員提供一種無需成為程序員即可清理,驗證和導入數據的解決方案嗎?我想介紹的一個解決方案是 Melissa的Unison,這是為Data Stewards構建的解決方案,使他們能夠通過直觀的面向項目的框架來驗證,清除,導入和導出數據。Unison提供:
- 直觀的三步過程執行數據清理
- 簡單的點擊界面即可分析,清理,標准化,豐富,匹配,合並和驗證數據
- 高度完善的數據質量算法,可確保您的數據在每月元數據更新中准確無誤
- 適用於240個國家/地區的地址驗證,名稱解析等
- 從主要數據庫(SQL Server,Oracle和MySQL),Excel和平面文件導入和導出數據
- 直觀的基於Web的界面,無需編程專業知識
- 業務用戶之間的協作,以確保滿足關鍵業務流程
- 面向項目的范例,用於重用,修改和重復計划
- 快速數據處理-每小時5000萬條地址記錄
- 專為本地部署容器技術而設計的體系結構,可滿足內部安全性和性能要求
讓我們深入了解Unison的實際情況。
適用於數據管理員的Unison數據質量入門
要開始使用 Unison清理和驗證數據 ,請登錄到儀表板以訪問項目,作業和管理界面,例如日志,用戶管理,元數據更新等。通過單擊左側導航欄中的“項目”鏈接來啟動一個新項目,然后選擇“新建”選項。首先,通過命名項目然后指定項目是公共項目還是私有項目來開始該過程。

命名項目后,將遵循三個核心步驟來完成項目:
- 將輸入源定義為文本文件或數據庫連接
- 配置數據驗證任務
- 將輸出源指定為文本文件或數據庫連接
輸入源和輸出源都可以是到SQL Server,Oracle或MySQL的平面文件或數據庫連接。下面是在項目中創建數據庫連接的界面。

在此項目中,我們將文本文件從Windows資源管理器拖放到Unison中,Unison將讀取文件頭並預覽前三個記錄,如下所示。 Unison包括智能文件檢測功能,但是如果需要,可以根據定界符,字段附件(例如雙引號)或文本文件是否為固定寬度來配置文本文件屬性。

配置完成后,項目如下所示:

Unison數據驗證任務
在數據驗證任務中,Unison的真正價值顯而易見。當前有四個可用任務,包括240個國家/地區的名稱解析,電話,電子郵件和地址清除。免費的Melissa解決方案目前支持Matching,Data Profiler和Data Cleansing 。對於Unison,只需單擊任何任務即可將其包括在項目中。讓我們從我們的項目的地址清理開始。

與Unison進行地址清理
對於“地址清理”,任務會將輸入文件與 Unison中的公共地址字段匹配 。該過程首先識別輸入字段,然后識別輸出字段,這些字段最終將在該過程的最后一步中使用。輸出字段是經過驗證的Melissa結果,以確保最終數據准確。審查並保存配置后,我們將返回主項目設計窗口。
用Unison解析名稱
我們的下一步是執行Unison命名解析,它遵循與Address Task類似的范例。這包括帶有驗證的輸入和輸出字段以及每個名稱段的分隔。

當我們返回到項目時,輸入和任務的當前狀態已完成。我們最后的配置步驟是定義輸出。

Unison輸出
就像Unison輸入一樣,輸出可以同時輸出到SQL Server,Oracle或MySQL中的文件或表。使用下面顯示的“寫入文件”選項,包括名稱,擴展名,附件和分隔符。此外,該文件一旦生成,就可以壓縮為Zip或GZip文件。另一個獨特功能是能夠根據完整地址匹配,完整電話號碼匹配等過濾文件輸出。

作為輸出數據之前的最后一步,Unison提供了查看輸出字段,使用滑塊打開/關閉列以及重新排列列順序的功能。右側的圖例指定與輸出字段關聯的顏色編碼。
最終項目審查
現在已經配置了項目,界面右上方的三個選項包括:
- 現在跑步
- 預覽輸出
- 時間表
預覽輸出
在“預覽輸出”選項中,您可以查看所有列和第一組行,以確保將以所需的格式傳遞數據。如果沒有,您可以根據需要更新項目。

立即在Unison中運行
如果基於“預覽輸出”的數據是正確的,則運行作業,檢查狀態,並在業務流程中的后續步驟中下載最終輸出文件。這是否意味着將文件復制到要由SQL Server Professionals構建的自動過程加載的數據的目錄中,對文件進行加密,然后與團隊成員或合作伙伴共享,等等。

如果單擊“查看報告”按鈕,則可以圖形或表格形式查看名稱和地址解析的結果,以了解所做的更改類型和記錄的錯誤。

統一調度
該項目的最終選擇是安排作業每天,每周,每月或自定義時間范圍內運行。下面是直觀的界面,用於每天安排工作。

Unison還提供機會更新和審查作業,以滿足日常管理和監視需求。
