Hadoop、Hive【LZO壓縮配置和使用】

本文轉載自查看原文 2020-07-13 18:51 534 hive/ Hive/ Hadoop/ hadoop

一.編譯
二.相關配置
三.為LZO文件創建索引
四.Hive為LZO文件建立索引

一.編譯

hadoop本身並不支持lzo壓縮，故需要使用twitter提供的hadoop-lzo開源組件。hadoop-lzo需依賴hadoop和lzo進行編譯，編譯步驟如下。

0. 環境准備
maven（下載安裝，配置環境變量，修改sitting.xml加阿里雲鏡像）
gcc-c++
zlib-devel
autoconf
automake
libtool
通過yum安裝即可，yum -y install gcc-c++ lzo-devel zlib-devel autoconf automake libtool

1. 下載、安裝並編譯LZO
wget http://www.oberhumer.com/opensource/lzo/download/lzo-2.10.tar.gz
tar -zxvf lzo-2.10.tar.gz
cd lzo-2.10
./configure -prefix=/usr/local/hadoop/lzo/
make
make install

2. 編譯hadoop-lzo源碼

2.1 下載hadoop-lzo的源碼，下載地址：https://github.com/twitter/hadoop-lzo/archive/master.zip
2.2 解壓之后，修改pom.xml
    <hadoop.current.version>3.1.3</hadoop.current.version>
2.3 聲明兩個臨時環境變量
     export C_INCLUDE_PATH=/usr/local/hadoop/lzo/include
     export LIBRARY_PATH=/usr/local/hadoop/lzo/lib 
2.4 編譯
    進入hadoop-lzo-master，執行maven編譯命令
    mvn package -Dmaven.test.skip=true
2.5 進入target，hadoop-lzo-0.4.21-SNAPSHOT.jar 即編譯成功的hadoop-lzo組件

二.相關配置

1）將編譯好后的hadoop-lzo-0.4.20.jar 放入hadoop-3.1.3/share/hadoop/common/

[hadoop@hadoop102 common]$ pwd
/opt/module/hadoop-3.1.3/share/hadoop/common
[hadoop@hadoop102 common]$ ls
hadoop-lzo-0.4.20.jar

2）同步hadoop-lzo-0.4.20.jar到hadoop103、hadoop104節點

xsync hadoop-lzo-0.4.20.jar

3）core-site.xml增加配置支持LZO壓縮

<configuration>
    <property>
        <name>io.compression.codecs</name>
        <value>
            org.apache.hadoop.io.compress.GzipCodec,
            org.apache.hadoop.io.compress.DefaultCodec,
            org.apache.hadoop.io.compress.BZip2Codec,
            org.apache.hadoop.io.compress.SnappyCodec,
            com.hadoop.compression.lzo.LzoCodec,
            com.hadoop.compression.lzo.LzopCodec
        </value>
    </property>

    <property>
        <name>io.compression.codec.lzo.class</name>
        <value>com.hadoop.compression.lzo.LzoCodec</value>
    </property>
</configuration>

4）同步core-site.xml到hadoop103、hadoop104

xsync core-site.xml

5）重啟集群，后mr和hive可以使用LZO壓縮。

三.為LZO文件創建索引

默認的.lzo壓縮文件是不可以進行分片的，計算只能1個MapReduce程序，可以給.lzo文件創建索引，后續該.lzo文件可以進行分片。

如：為big_file.lzo文件創建索引

// haodoop jar leojar包  全類名  需要建立索引的.lzo文件
hadoop jar /path/to/your/hadoop-lzo.jar com.hadoop.compression.lzo.DistributedLzoIndexer big_file.lzo

四.Hive為LZO文件建立索引

官網：https://cwiki.apache.org/confluence/display/Hive/LanguageManual+LZO

1.hive創建的lzo壓縮的分區表

CREATE EXTERNAL TABLE ods_log (`line` string)
PARTITIONED BY (`dt` string) -- 按照時間創建分區
STORED AS -- 指定存儲方式，讀數據采用LzoTextInputFormat；
  INPUTFORMAT 'com.hadoop.mapred.DeprecatedLzoTextInputFormat'
  OUTPUTFORMAT 'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat'
LOCATION '/warehouse/gmall/ods/ods_log'  -- 指定數據在hdfs上的存儲位置
;

2.給.lzo壓縮文件建立索引index

# 給.lzo文件建立索引，索引后.lzo文件可以分片，默認不可以，提交到hive隊列
hadoop jar /opt/module/hadoop-3.1.3/share/hadoop/common/hadoop-lzo-0.4.20.jar com.hadoop.compression.lzo.DistributedLzoIndexer /warehouse/gmall/ods/ods_log/dt=2020-08-06

3.讀取Lzo文件的注意事項(重要)

Hive中hive.input.format默認值為org.apache.hadoop.hive.ql.io.CombineHiveInputFormat，

CombineHiveInputFormat不能識別LZO的索引文件，而將索引文件當作輸入文件，更為嚴重的是，這會導致LZO文件無法切片。故需要在讀取LZO文件時加上如下參數。

SET hive.input.format=org.apache.hadoop.hive.ql.io.HiveInputFormat;

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 【轉】hadoop2.6 配置lzo壓縮 hadoop配置支持LZO壓縮格式並支持分片 MapReduce使用lzo壓縮注意 Hadoop3.1.2 + Hbase2.2.0 設置lzo壓縮算法 LZO 使用和介紹 lzo壓縮格式文件查看 Hadoop MapReduce中壓縮技術的使用 Hive和Hadoop Hive安裝、配置和使用 hive orc壓縮數據異常java.lang.ClassCastException: org.apache.hadoop.io.Text cannot be cast to org.apache.hadoop.hive.ql.io.orc.OrcSerde$OrcSerdeRow