目錄
一.編譯
hadoop本身並不支持lzo壓縮,故需要使用twitter提供的hadoop-lzo開源組件。hadoop-lzo需依賴hadoop和lzo進行編譯,編譯步驟如下。
0. 環境准備
maven(下載安裝,配置環境變量,修改sitting.xml加阿里雲鏡像)
gcc-c++
zlib-devel
autoconf
automake
libtool
通過yum安裝即可,yum -y install gcc-c++ lzo-devel zlib-devel autoconf automake libtool
1. 下載、安裝並編譯LZO
wget http://www.oberhumer.com/opensource/lzo/download/lzo-2.10.tar.gz
tar -zxvf lzo-2.10.tar.gz
cd lzo-2.10
./configure -prefix=/usr/local/hadoop/lzo/
make
make install
2. 編譯hadoop-lzo源碼
2.1 下載hadoop-lzo的源碼,下載地址:https://github.com/twitter/hadoop-lzo/archive/master.zip
2.2 解壓之后,修改pom.xml
<hadoop.current.version>3.1.3</hadoop.current.version>
2.3 聲明兩個臨時環境變量
export C_INCLUDE_PATH=/usr/local/hadoop/lzo/include
export LIBRARY_PATH=/usr/local/hadoop/lzo/lib
2.4 編譯
進入hadoop-lzo-master,執行maven編譯命令
mvn package -Dmaven.test.skip=true
2.5 進入target,hadoop-lzo-0.4.21-SNAPSHOT.jar 即編譯成功的hadoop-lzo組件
二.相關配置
1)將編譯好后的hadoop-lzo-0.4.20.jar 放入hadoop-3.1.3/share/hadoop/common/
[hadoop@hadoop102 common]$ pwd
/opt/module/hadoop-3.1.3/share/hadoop/common
[hadoop@hadoop102 common]$ ls
hadoop-lzo-0.4.20.jar
2)同步hadoop-lzo-0.4.20.jar到hadoop103、hadoop104節點
xsync hadoop-lzo-0.4.20.jar
3)core-site.xml增加配置支持LZO壓縮
<configuration>
<property>
<name>io.compression.codecs</name>
<value>
org.apache.hadoop.io.compress.GzipCodec,
org.apache.hadoop.io.compress.DefaultCodec,
org.apache.hadoop.io.compress.BZip2Codec,
org.apache.hadoop.io.compress.SnappyCodec,
com.hadoop.compression.lzo.LzoCodec,
com.hadoop.compression.lzo.LzopCodec
</value>
</property>
<property>
<name>io.compression.codec.lzo.class</name>
<value>com.hadoop.compression.lzo.LzoCodec</value>
</property>
</configuration>
4)同步core-site.xml到hadoop103、hadoop104
xsync core-site.xml
5)重啟集群,后mr和hive可以使用LZO壓縮。
三.為LZO文件創建索引
默認的.lzo壓縮文件是不可以進行分片的,計算只能1個MapReduce程序,可以給.lzo文件創建索引,后續該.lzo文件可以進行分片。
如:為big_file.lzo文件創建索引
// haodoop jar leojar包 全類名 需要建立索引的.lzo文件
hadoop jar /path/to/your/hadoop-lzo.jar com.hadoop.compression.lzo.DistributedLzoIndexer big_file.lzo
四.Hive為LZO文件建立索引
官網:https://cwiki.apache.org/confluence/display/Hive/LanguageManual+LZO
1.hive創建的lzo壓縮的分區表
CREATE EXTERNAL TABLE ods_log (`line` string)
PARTITIONED BY (`dt` string) -- 按照時間創建分區
STORED AS -- 指定存儲方式,讀數據采用LzoTextInputFormat;
INPUTFORMAT 'com.hadoop.mapred.DeprecatedLzoTextInputFormat'
OUTPUTFORMAT 'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat'
LOCATION '/warehouse/gmall/ods/ods_log' -- 指定數據在hdfs上的存儲位置
;
2.給.lzo壓縮文件建立索引index
# 給.lzo文件建立索引,索引后.lzo文件可以分片,默認不可以,提交到hive隊列
hadoop jar /opt/module/hadoop-3.1.3/share/hadoop/common/hadoop-lzo-0.4.20.jar com.hadoop.compression.lzo.DistributedLzoIndexer /warehouse/gmall/ods/ods_log/dt=2020-08-06
3.讀取Lzo文件的注意事項(重要)
Hive中hive.input.format默認值為org.apache.hadoop.hive.ql.io.CombineHiveInputFormat,
CombineHiveInputFormat不能識別LZO的索引文件,而將索引文件當作輸入文件,更為嚴重的是,這會導致LZO文件無法切片。故需要在讀取LZO文件時加上如下參數。
SET hive.input.format=org.apache.hadoop.hive.ql.io.HiveInputFormat;