大数据治理ETL 工具开源 Kettle 与国产老牌Beeload 核心功能对比!


建设数据中心其间有一重要且烦碎的数据治理工作即(数据清洗、数据过滤、数据转换、数据标准化......)

近两年出现所谓的“ 数据中台”在我认为就是“传统数据整合平台” 别名!其解决数据治理问题 治标不治本。就是一个数据黑匣子。

使用ETL工具,可对数据治理整个过程:部署简易、配置可视化,配置灵活 ,自主治理、数据流动透明,后期维护任意..... 

 

                                                                                              灵蜂Beeload 与 Pentaho Kettle 核心功能对比

 

序号 技术参数 Beeload Kettle
1 整库迁移或批量表导出 自动映射源表结构到目标库,支持批量映射。 手工定义java class 完成表结构映射
2

时间戳

同步

要求源表包含时间戳字段,每次同步时,根据上次记录的断点读取未同步的数据,同步结束后记录断点。所有逻辑全部自动完成,无需手工扩展。 要求目标表包含和源表一样的时间戳字段,每次同步时通过MAX()函数获取目标表已经同步数据的最大哦时间戳,然后在源表设置过滤条件读取上次同步后产生的记录,需要手工编辑SQL处理上述逻辑。
3

触发器

同步

软件自动在源库创建触发器和临时表,数据同步后,自动删除临时表中的数据。 用户自己手工创建触发器及临时表,每当源表中的数据发生变化,就被相应的触发器将变化的数据写入临时表,抽取线程从临时表中抽取数据后需要手工删除表数据。
4

全表

比对

分为是否进行差异更新,差异更新时,通过计算每条记录的校验码,对源表和目标记录进行比对,目标表记录不存在则插入,目标表记录不相同则更新,目标表包含源表没有的记录则删除 将每一条数据的每列内容进行比对,比对完了以后追加一个状态字段用来描述这条数据的状态,共有四种状态:identical(未改变)、changed(改变)、new(新增)、deleted(删除),所对应的操作就是增、删、改,接下来就可以借助Kettle的switch/case 组件按照操作类型执行不同的操作了。
5

任务调度

包含作业调度和工作流调度,统一管理任务的运行。 软件自身定时调度功能不稳定,需要在系统计划中部署任务。
6

定制开发

内置集成脚本开发环境,所有图形配置均可转为脚本执行,脚本支持逐行断点调试。 使用Java Script 脚本或定义 Java class。

 

 

 

Beeload 业调度界面

 

 

 

 

Beeload 工作流管理界面

 

 

 

 

Beeload 脚本调试界面

 


免责声明!

本站转载的文章为个人学习借鉴使用,本站对版权不负任何法律责任。如果侵犯了您的隐私权益,请联系本站邮箱yoyou2525@163.com删除。



 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM