建設數據中心其間有一重要且煩碎的數據治理工作即(數據清洗、數據過濾、數據轉換、數據標准化......)
近兩年出現所謂的“ 數據中台”在我認為就是“傳統數據整合平台” 別名!其解決數據治理問題 治標不治本。就是一個數據黑匣子。
使用ETL工具,可對數據治理整個過程:部署簡易、配置可視化,配置靈活 ,自主治理、數據流動透明,后期維護任意.....
靈蜂Beeload 與 Pentaho Kettle 核心功能對比
序號 | 技術參數 | Beeload | Kettle |
1 | 整庫遷移或批量表導出 | 自動映射源表結構到目標庫,支持批量映射。 | 手工定義java class 完成表結構映射 |
2 | 時間戳 同步 |
要求源表包含時間戳字段,每次同步時,根據上次記錄的斷點讀取未同步的數據,同步結束后記錄斷點。所有邏輯全部自動完成,無需手工擴展。 | 要求目標表包含和源表一樣的時間戳字段,每次同步時通過MAX()函數獲取目標表已經同步數據的最大哦時間戳,然后在源表設置過濾條件讀取上次同步后產生的記錄,需要手工編輯SQL處理上述邏輯。 |
3 | 觸發器 同步 |
軟件自動在源庫創建觸發器和臨時表,數據同步后,自動刪除臨時表中的數據。 | 用戶自己手工創建觸發器及臨時表,每當源表中的數據發生變化,就被相應的觸發器將變化的數據寫入臨時表,抽取線程從臨時表中抽取數據后需要手工刪除表數據。 |
4 | 全表 比對 |
分為是否進行差異更新,差異更新時,通過計算每條記錄的校驗碼,對源表和目標記錄進行比對,目標表記錄不存在則插入,目標表記錄不相同則更新,目標表包含源表沒有的記錄則刪除 | 將每一條數據的每列內容進行比對,比對完了以后追加一個狀態字段用來描述這條數據的狀態,共有四種狀態:identical(未改變)、changed(改變)、new(新增)、deleted(刪除),所對應的操作就是增、刪、改,接下來就可以借助Kettle的switch/case 組件按照操作類型執行不同的操作了。 |
5 | 任務調度 |
包含作業調度和工作流調度,統一管理任務的運行。 | 軟件自身定時調度功能不穩定,需要在系統計划中部署任務。 |
6 | 定制開發 |
內置集成腳本開發環境,所有圖形配置均可轉為腳本執行,腳本支持逐行斷點調試。 | 使用Java Script 腳本或定義 Java class。 |