ETL及常用工具简介
ETL是数据抽取(Extract)、转换(Transform)、加载(Load)的缩写.
一、主流的数据同步工具
1、离线
Kettle、Sqoop、DataX
2、实时
Kafka、Flume、OGG
二、Kettle
Kettle是一款国外开源的ETL工具,纯 Java 编写,数据抽取高效,对各种数据源的支持比较好。
跨平台,Window、Linux、Unix都可以运行。
绿色无需安装,解压即可。
提供一个图形化的界面,用来设计数据流控制以及转换。
三、Sqoop
Sqoop是一款开源的工具,主要用于在HDFS和传统数据库间进行高效的数据传递。
Hadoop生态自带,
关系型数据库数据导入到HDFS,
HDFS的数据导出到关系型数据库。
四、DataX
DataX是淘宝开源的数据交换工具,采用框架+插件结构。
框架相当于数据中转平台,插件则为不同类型的数据提供实现。
Reader:Reader负责从数据源端读取数据到交换空间,
比如 hdfsreader、mysqlreader.
Writer: 负责将交换空间中的数据写入到数据目的端,
比如 hdfswriter、sqlserverwriter