hadoop 指定 key value分隔符

本文轉載自查看原文 2016-11-18 11:40 2739

原文：http://wingmzy.iteye.com/blog/1260570

hadoop中的map-reduce是處理<key,value>這樣的鍵值對，故指定<key,value>的分割符等參數可以分成三類：

map輸出時分割符

分桶時的分隔符

reduce輸出時的分割符

下面分別敘述：

1. map輸出時分割符

參數：

stream.map.output.field.separator

作用：

指定map輸出時的分割符

stream.num.map.output.key.fields

指定輸出按照分隔符切割后，key所占有的列數

舉例：

input數據：

2,2,c,c,c,c

參數配置：

-mapper "cat" # map 為分布式的cat命令

-reducer "" #reduce為空 /

-jobconf stream.map.output.field.separator=',' /

-jobconf stream.num.map.output.key.fields=2 /

即按照','逗號分隔后，去前2列作為key

output數據：

2,2     c,c,c,c #其中key為2,2 value為c,c,c,c

2. 分桶時的分隔符

map.output.key.field.separator

指定map輸出<key,value>對之后，其中key內部的分割符

num.key.fields.for.partition

指定分桶時，按照分隔符切割后，用於分桶key所占的列數

舉例：

map的output數據：

2,2     c,c,c,c

參數配置：
-jobconf map.output.key.field.separator=',' /
-jobconf num.key.fields.for.partition='1'   /
-partitioner org.apache.hadoop.mapred.lib.KeyFieldBasedPartitioner /

output數據：

這樣用於partition分桶的key就為：2

注意，這里分桶不應該用默認的HashPartitioner

3. reduce輸出時的分割符

這個與map類似，分別用於reduce輸出時分隔符以及key占有的列數

stream.reduce.output.field.separator

stream.num.reduce.output.key.fields