Sqoop

什么是 Sqoop

Sqoop 是一款开源的工具，主要用于在 Hadoop(Hive)与传统的数据库(mysql、postgresql...) 间进行数据的传递，可以将一个关系型数据库（例如： MySQL ,Oracle ,Postgres 等）中的数据导进到 Hadoop 的 HDFS 中，也可以将 HDFS 的数据导进到关系型数据库中
Sqoop2 的最新版本是 1.99.7。请注意，2 与 1 不兼容，且特征不完整，它并不打算用于生产部署。

解压 Sqoop 包到指定目录
- tar -zxvf sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz -C /opt/module/
修改 & 重命名配置文件
- 重命名配置文件
  - mv sqoop-env-template.sh sqoop-env.sh
- 修改配置文件
  - export HADOOP_COMMON_HOME={hadoop 安装目录}
    export HADOOP_MAPRED_HOME={hadoop 安装目录}
    export HIVE_HOME={Hive 安装目录}
  - 注:配置文件中还可以添加其他组件的配置，例如 Zookeeper，Hbase 等，不设置的情况下，会报警告
拷贝 jdbc 驱动到 sqoop 的 lib 目录下
- cp mysql-connector-java-5.1.37.jar /opt/module/sqoop-1.4.6/lib/
配置环境变量，方便执行命令
- export SQOOP_HOME={sqoop 安装目录}
  export PATH=$PATH:$SQOOP_HOME/bin
- 生效环境变量
  - source /etc/profile
连接 MySQL 测试
- sqoop list-databases --connect jdbc:mysql://主机名:3306/ --username root --password mysql密码
- 出现的日志包含如下结果则 MySQL 连接成功
  - information_schema
    metastore
    mysql
    oozie
    performance_schema

创建 MySQL 数据库
- create database sqoop_test;
创建表
- create table sqoop_tbl (id int(4) PRIMARY KEY AUTO_INCREMENT,name varchar(255));
添加数据
- insert into sqoop_tbl (name) values ('zhangsan');
- insert into sqoop_tbl (name) values ('lisi');
- insert into sqoop_tbl (name) values ('wangwu');
- insert into sqoop_tbl (name) values ('zhaoliu');

sqoop import --connect jdbc:mysql://master-3.x-wfb:3306/sqoop_test --username root --password 111111 --target-dir user/sqoop_test4 --delete-target-dir --num-mappers 1 --fields-terminated-by '\t' --columns id,name --table sqoop_tbl

--columns id,name 导入指定的字段

sqoop import --connect jdbc:mysql://master-3.x-wfb:3306/sqoop_test --username root --password 111111 --target-dir /user/sqoop-test4 --delete-target-dir --num-mappers 1 --fields-terminated-by "\t" --table sqoop_tbl --where 'id=4'

where 'id=4' 导入数据时，加上条件

sqoop import --connect jdbc:mysql://hadoop102:3306/company --username root --password 000000 --table company --columns "id,name,sex" --column-family "info" --hbase-create-table --hbase-row-key "id" --hbase-table "hbase_company" --num-mappers 1 --split-by id

若没学过 Hbase 了解即可，比赛时，大概率使用 Hive

在 Sqoop 中，“导出”概念指：从大数据集群（HDFS，HIVE，HBASE）向非大数据集群（RDBMS）中传输数据，叫做:导出，即使用 export 关键字。

sqoop export --connect jdbc:mysql://master-3.x-wfb:3306/sqoop_test --username root --password 111111 --table sqoop_tbl --num-mappers 1 --export-dir /user/hive/warehouse/sqoop_tbl --input-fields-terminated-by '\t'

--export-dir /user/hive/warehouse/sqoop_tbl 导出数据的目录
--input-fields-terminated-by '\t' 导出数据时，使用什么分隔符分割字段
--table sqoop_tbl 导出到 MySQL 的那张表

本站转载的文章为个人学习借鉴使用，本站对版权不负任何法律责任。如果侵犯了您的隐私权益，请联系本站邮箱yoyou2525@163.com删除。

猜您在找 Sqoop 使用shell命令的各种参数的配置及使用方法【sqoop】安装配置测试sqoop1 sqoop的详细使用及原理 sqoop简单import使用 sqoop的详细使用及原理 Sqoop安装与使用 Sqoop 使用shell命令的各种参数的配置及使用方法（含主键重复问题参数配置） sqoop1.9.7安装和使用 Linux安装Sqoop及基础使用 Sqoop安装与使用(sqoop-1.4.5 on hadoop 1.0.4)