Hadoop、Hive【LZO壓縮配置和使用】


一.編譯

hadoop本身並不支持lzo壓縮,故需要使用twitter提供的hadoop-lzo開源組件。hadoop-lzo需依賴hadoop和lzo進行編譯,編譯步驟如下。

0. 環境准備
maven(下載安裝,配置環境變量,修改sitting.xml加阿里雲鏡像)
gcc-c++
zlib-devel
autoconf
automake
libtool
通過yum安裝即可,yum -y install gcc-c++ lzo-devel zlib-devel autoconf automake libtool

1. 下載、安裝並編譯LZO
wget http://www.oberhumer.com/opensource/lzo/download/lzo-2.10.tar.gz
tar -zxvf lzo-2.10.tar.gz
cd lzo-2.10
./configure -prefix=/usr/local/hadoop/lzo/
make
make install

2. 編譯hadoop-lzo源碼

2.1 下載hadoop-lzo的源碼,下載地址:https://github.com/twitter/hadoop-lzo/archive/master.zip
2.2 解壓之后,修改pom.xml
    <hadoop.current.version>3.1.3</hadoop.current.version>
2.3 聲明兩個臨時環境變量
     export C_INCLUDE_PATH=/usr/local/hadoop/lzo/include
     export LIBRARY_PATH=/usr/local/hadoop/lzo/lib 
2.4 編譯
    進入hadoop-lzo-master,執行maven編譯命令
    mvn package -Dmaven.test.skip=true
2.5 進入target,hadoop-lzo-0.4.21-SNAPSHOT.jar 即編譯成功的hadoop-lzo組件

二.相關配置

1)將編譯好后的hadoop-lzo-0.4.20.jar 放入hadoop-3.1.3/share/hadoop/common/

[hadoop@hadoop102 common]$ pwd
/opt/module/hadoop-3.1.3/share/hadoop/common
[hadoop@hadoop102 common]$ ls
hadoop-lzo-0.4.20.jar

2)同步hadoop-lzo-0.4.20.jar到hadoop103、hadoop104節點

xsync hadoop-lzo-0.4.20.jar

3)core-site.xml增加配置支持LZO壓縮

<configuration>
    <property>
        <name>io.compression.codecs</name>
        <value>
            org.apache.hadoop.io.compress.GzipCodec,
            org.apache.hadoop.io.compress.DefaultCodec,
            org.apache.hadoop.io.compress.BZip2Codec,
            org.apache.hadoop.io.compress.SnappyCodec,
            com.hadoop.compression.lzo.LzoCodec,
            com.hadoop.compression.lzo.LzopCodec
        </value>
    </property>

    <property>
        <name>io.compression.codec.lzo.class</name>
        <value>com.hadoop.compression.lzo.LzoCodec</value>
    </property>
</configuration>

4)同步core-site.xml到hadoop103、hadoop104

xsync core-site.xml

5)重啟集群,后mr和hive可以使用LZO壓縮。

三.為LZO文件創建索引

默認的.lzo壓縮文件是不可以進行分片的,計算只能1個MapReduce程序,可以給.lzo文件創建索引,后續該.lzo文件可以進行分片。

如:為big_file.lzo文件創建索引

// haodoop jar leojar包  全類名  需要建立索引的.lzo文件
hadoop jar /path/to/your/hadoop-lzo.jar com.hadoop.compression.lzo.DistributedLzoIndexer big_file.lzo

四.Hive為LZO文件建立索引

官網https://cwiki.apache.org/confluence/display/Hive/LanguageManual+LZO

1.hive創建的lzo壓縮的分區表

CREATE EXTERNAL TABLE ods_log (`line` string)
PARTITIONED BY (`dt` string) -- 按照時間創建分區
STORED AS -- 指定存儲方式,讀數據采用LzoTextInputFormat;
  INPUTFORMAT 'com.hadoop.mapred.DeprecatedLzoTextInputFormat'
  OUTPUTFORMAT 'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat'
LOCATION '/warehouse/gmall/ods/ods_log'  -- 指定數據在hdfs上的存儲位置
;

2.給.lzo壓縮文件建立索引index

# 給.lzo文件建立索引,索引后.lzo文件可以分片,默認不可以,提交到hive隊列
hadoop jar /opt/module/hadoop-3.1.3/share/hadoop/common/hadoop-lzo-0.4.20.jar com.hadoop.compression.lzo.DistributedLzoIndexer /warehouse/gmall/ods/ods_log/dt=2020-08-06

3.讀取Lzo文件的注意事項(重要)

Hive中hive.input.format默認值為org.apache.hadoop.hive.ql.io.CombineHiveInputFormat,

CombineHiveInputFormat不能識別LZO的索引文件,而將索引文件當作輸入文件,更為嚴重的是,這會導致LZO文件無法切片。故需要在讀取LZO文件時加上如下參數。

SET hive.input.format=org.apache.hadoop.hive.ql.io.HiveInputFormat;


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM