Hadoop、Hive【LZO压缩配置和使用】

本文转载自查看原文 2020-07-13 18:51 534 hive/ Hive/ Hadoop/ hadoop

一.编译
二.相关配置
三.为LZO文件创建索引
四.Hive为LZO文件建立索引

一.编译

hadoop本身并不支持lzo压缩，故需要使用twitter提供的hadoop-lzo开源组件。hadoop-lzo需依赖hadoop和lzo进行编译，编译步骤如下。

0. 环境准备
maven（下载安装，配置环境变量，修改sitting.xml加阿里云镜像）
gcc-c++
zlib-devel
autoconf
automake
libtool
通过yum安装即可，yum -y install gcc-c++ lzo-devel zlib-devel autoconf automake libtool

1. 下载、安装并编译LZO
wget http://www.oberhumer.com/opensource/lzo/download/lzo-2.10.tar.gz
tar -zxvf lzo-2.10.tar.gz
cd lzo-2.10
./configure -prefix=/usr/local/hadoop/lzo/
make
make install

2. 编译hadoop-lzo源码

2.1 下载hadoop-lzo的源码，下载地址：https://github.com/twitter/hadoop-lzo/archive/master.zip
2.2 解压之后，修改pom.xml
    <hadoop.current.version>3.1.3</hadoop.current.version>
2.3 声明两个临时环境变量
     export C_INCLUDE_PATH=/usr/local/hadoop/lzo/include
     export LIBRARY_PATH=/usr/local/hadoop/lzo/lib 
2.4 编译
    进入hadoop-lzo-master，执行maven编译命令
    mvn package -Dmaven.test.skip=true
2.5 进入target，hadoop-lzo-0.4.21-SNAPSHOT.jar 即编译成功的hadoop-lzo组件

二.相关配置

1）将编译好后的hadoop-lzo-0.4.20.jar 放入hadoop-3.1.3/share/hadoop/common/

[hadoop@hadoop102 common]$ pwd
/opt/module/hadoop-3.1.3/share/hadoop/common
[hadoop@hadoop102 common]$ ls
hadoop-lzo-0.4.20.jar

2）同步hadoop-lzo-0.4.20.jar到hadoop103、hadoop104节点

xsync hadoop-lzo-0.4.20.jar

3）core-site.xml增加配置支持LZO压缩

<configuration>
    <property>
        <name>io.compression.codecs</name>
        <value>
            org.apache.hadoop.io.compress.GzipCodec,
            org.apache.hadoop.io.compress.DefaultCodec,
            org.apache.hadoop.io.compress.BZip2Codec,
            org.apache.hadoop.io.compress.SnappyCodec,
            com.hadoop.compression.lzo.LzoCodec,
            com.hadoop.compression.lzo.LzopCodec
        </value>
    </property>

    <property>
        <name>io.compression.codec.lzo.class</name>
        <value>com.hadoop.compression.lzo.LzoCodec</value>
    </property>
</configuration>

4）同步core-site.xml到hadoop103、hadoop104

xsync core-site.xml

5）重启集群，后mr和hive可以使用LZO压缩。

三.为LZO文件创建索引

默认的.lzo压缩文件是不可以进行分片的，计算只能1个MapReduce程序，可以给.lzo文件创建索引，后续该.lzo文件可以进行分片。

如：为big_file.lzo文件创建索引

// haodoop jar leojar包  全类名  需要建立索引的.lzo文件
hadoop jar /path/to/your/hadoop-lzo.jar com.hadoop.compression.lzo.DistributedLzoIndexer big_file.lzo

四.Hive为LZO文件建立索引

官网：https://cwiki.apache.org/confluence/display/Hive/LanguageManual+LZO

1.hive创建的lzo压缩的分区表

CREATE EXTERNAL TABLE ods_log (`line` string)
PARTITIONED BY (`dt` string) -- 按照时间创建分区
STORED AS -- 指定存储方式，读数据采用LzoTextInputFormat；
  INPUTFORMAT 'com.hadoop.mapred.DeprecatedLzoTextInputFormat'
  OUTPUTFORMAT 'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat'
LOCATION '/warehouse/gmall/ods/ods_log'  -- 指定数据在hdfs上的存储位置
;

2.给.lzo压缩文件建立索引index

# 给.lzo文件建立索引，索引后.lzo文件可以分片，默认不可以，提交到hive队列
hadoop jar /opt/module/hadoop-3.1.3/share/hadoop/common/hadoop-lzo-0.4.20.jar com.hadoop.compression.lzo.DistributedLzoIndexer /warehouse/gmall/ods/ods_log/dt=2020-08-06

3.读取Lzo文件的注意事项(重要)

Hive中hive.input.format默认值为org.apache.hadoop.hive.ql.io.CombineHiveInputFormat，

CombineHiveInputFormat不能识别LZO的索引文件，而将索引文件当作输入文件，更为严重的是，这会导致LZO文件无法切片。故需要在读取LZO文件时加上如下参数。

SET hive.input.format=org.apache.hadoop.hive.ql.io.HiveInputFormat;

免责声明！

本站转载的文章为个人学习借鉴使用，本站对版权不负任何法律责任。如果侵犯了您的隐私权益，请联系本站邮箱yoyou2525@163.com删除。

猜您在找 【转】hadoop2.6 配置lzo压缩 hadoop配置支持LZO压缩格式并支持分片 MapReduce使用lzo压缩注意 Hadoop3.1.2 + Hbase2.2.0 设置lzo压缩算法 LZO 使用和介绍 lzo压缩格式文件查看 Hadoop MapReduce中压缩技术的使用 Hive和Hadoop Hive安装、配置和使用 hive orc压缩数据异常java.lang.ClassCastException: org.apache.hadoop.io.Text cannot be cast to org.apache.hadoop.hive.ql.io.orc.OrcSerde$OrcSerdeRow