Hive不同文件的读取与序列化

本文转载自查看原文 2017-06-24 18:42 1182

Hive不同文件的读取对照

stored as textfile

直接查看hdfs
hadoop fs -text

hive> create table test_txt(name string,val string) stored as textfile;

stored as sequencefile

hadoop fs -text

hive> create table test_seq(name string,val string) stored as sequencefile;

stored as rcfile

hive –service rcfilecat path

hive>  create table test_rc(name string,val string) stored as rcfile;

stored as inputformat ‘class’自己定义

outformat ‘class’
基本步骤：
1、编写自己定义类
2、打成jar包
3、加入jar文件，hive> add jar /***/***/***.jar(当前生效)或者复制到hive安装文件夹的lib文件夹下。重新启动client（永久生效）。
4、创建表，指定自己定义的类

Hive使用SerDe

SerDe是”Serializer”和”Deserializer”的简写。

Hive使用SerDe（和FileFormat）来读、写表的行。
读写数据的顺序例如以下：

HDFS文件-->InputFileFormat--><key,value>-->Deserializer-->Row对象

Row对象-->Serializer--><key,value＞-->OutputFileFormat-->HDFS文件

Hive自带的序列化与反序列化

当然我们也能够自己实现自己定义的序列化与反序列化
Hive自己定义序列化与反序列化步骤
1、实现接口SerDe或者继承AbstractSerDe抽象类
2、重写里面的方法

Demo:

创建表

drop table apachelog;
create table apachelog( host string, identity string, user string, time string, request string, status string, size string, referer string, agent string ) row format serde 'org.apache.hadoop.hive.contrib.serde2.RegexSerDe' with serdeproperties( "input.regex" = "([^ ]*) ([^ ]*) ([^ ]*) ([^ ]*) ([^ ]*) ([0-9]*) ([0-9]*) ([^ ]*) ([^ ]*)" )stored as textfile;

cat serdedata
110.52.250.126 test user -  GET 200 1292 refer agent
27.19.74.143 test root - GET 200 680 refer agent

载入数据

load data local inpath '/liguodong/hivedata/serdedata' overwrite into table apachelog;

查看内容

select * from apachelog;
 select host from apachelog;

免责声明！

本站转载的文章为个人学习借鉴使用，本站对版权不负任何法律责任。如果侵犯了您的隐私权益，请联系本站邮箱yoyou2525@163.com删除。

猜您在找 Hive之序列化与反序列化（SerDe） python的序列化与反序列化(例子:dict保存成文件，文件读取成dict) 文件和流（序列化）文件的序列化和反序列化序列化流把对象以指定的格式写入到文件中保存和读取网鼎杯-Fakebook-反序列化和SSRF和file协议读取文件 Hive中自定义序列化器（带编码） hive中修改序列化格式分隔符 FormData序列化及file文件上传 List序列化成String和将序列化成String的文件反序列化