大數據治理ETL 工具開源 Kettle 與國產老牌Beeload 核心功能對比!


建設數據中心其間有一重要且煩碎的數據治理工作即(數據清洗、數據過濾、數據轉換、數據標准化......)

近兩年出現所謂的“ 數據中台”在我認為就是“傳統數據整合平台” 別名!其解決數據治理問題 治標不治本。就是一個數據黑匣子。

使用ETL工具,可對數據治理整個過程:部署簡易、配置可視化,配置靈活 ,自主治理、數據流動透明,后期維護任意..... 

 

                                                                                              靈蜂Beeload 與 Pentaho Kettle 核心功能對比

 

序號 技術參數 Beeload Kettle
1 整庫遷移或批量表導出 自動映射源表結構到目標庫,支持批量映射。 手工定義java class 完成表結構映射
2

時間戳

同步

要求源表包含時間戳字段,每次同步時,根據上次記錄的斷點讀取未同步的數據,同步結束后記錄斷點。所有邏輯全部自動完成,無需手工擴展。 要求目標表包含和源表一樣的時間戳字段,每次同步時通過MAX()函數獲取目標表已經同步數據的最大哦時間戳,然后在源表設置過濾條件讀取上次同步后產生的記錄,需要手工編輯SQL處理上述邏輯。
3

觸發器

同步

軟件自動在源庫創建觸發器和臨時表,數據同步后,自動刪除臨時表中的數據。 用戶自己手工創建觸發器及臨時表,每當源表中的數據發生變化,就被相應的觸發器將變化的數據寫入臨時表,抽取線程從臨時表中抽取數據后需要手工刪除表數據。
4

全表

比對

分為是否進行差異更新,差異更新時,通過計算每條記錄的校驗碼,對源表和目標記錄進行比對,目標表記錄不存在則插入,目標表記錄不相同則更新,目標表包含源表沒有的記錄則刪除 將每一條數據的每列內容進行比對,比對完了以后追加一個狀態字段用來描述這條數據的狀態,共有四種狀態:identical(未改變)、changed(改變)、new(新增)、deleted(刪除),所對應的操作就是增、刪、改,接下來就可以借助Kettle的switch/case 組件按照操作類型執行不同的操作了。
5

任務調度

包含作業調度和工作流調度,統一管理任務的運行。 軟件自身定時調度功能不穩定,需要在系統計划中部署任務。
6

定制開發

內置集成腳本開發環境,所有圖形配置均可轉為腳本執行,腳本支持逐行斷點調試。 使用Java Script 腳本或定義 Java class。

 

 

 

Beeload 業調度界面

 

 

 

 

Beeload 工作流管理界面

 

 

 

 

Beeload 腳本調試界面

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM