【hadoop】如何向map和reduce腳本傳遞參數,加載文件和目錄

本文轉載自查看原文 2015-05-28 17:57 7927 mapreduce傳入參數/ hadoop

本文主要講解三個問題：

1 使用Java編寫MapReduce程序時，如何向map、reduce函數傳遞參數。

2 使用Streaming編寫MapReduce程序(C/C++, Shell, Python)時，如何向map、reduce腳本傳遞參數。

3 使用Streaming編寫MapReduce程序(C/C++, Shell, Python)時，如何向map、reduce腳本傳遞文件或文件夾。

(1) streaming 加載本地單個文件

(2) streaming 加載本地多個文件

(3) streaming 加載本地目錄

(4) streaming編程時在mapreduce腳本中讀 hdfs 文件

(5) streaming編程時在mapreduce腳本中讀 hdfs 目錄

1. Java編寫MapReduce程序時，如何向map、reduce函數傳遞參數

我開始使用如下方式進行傳遞.

在主類中聲明兩個靜態變量, 然后在 main 函數中給變量賦值, 試圖在 map和reduce函數中獲得變量的值。

代碼結構類似如下:

提交到集群運行發現在 map 和 reduce函數中, 靜態變量MaxScore的值始終是初值1。

於是試圖在主類的靜態區中給變量賦值 (因為靜態區中的代碼比main中的代碼要先執行), 仍是不成功, MaxScore的值始終是初值1。

將上述代碼在單機hadoop上運行, 結果正常, map 函數中能獲得變量的值。

思考是這個原因: 在提交作業到hadoop集群后，mapper類和reducer類就到各個 tasktracker上去運行了, 與主類獨立, 不能交互。

因此，上述往 map 和 reduce 函數傳參數的方法實在太天真。

於是想到其它一些方法: 例如將參數寫入hdfs文件中, 然后在 mapper 和 reducer 類的 run方法中讀取文件, 並將值讀到相應變量，這是可行的，但是方法較復雜，代碼如下：

上述方法盡管可用, 但是不是常規方法, 下面介紹常用的方法：

(1) 通過 Configuration 來傳遞參數

在main函數中調用set方法設置參數, 例如:

在mapper中通過上下文context來獲取當前作業的配置, 並獲取參數, 例如:

注: context 很有用, 能獲取當前作業的大量信息,例如上面就獲取了任務ID.

(2) 利用org.apache.hadoop.io.DefaultStringifier類

示例：

main中：

Configuration conf = new Configuration();

Text maxscore = new Text("12989");

DefaultStringifier.store(conf, maxscore ,"maxscore");

這樣，Text對象maxscore就以“maxscore”作為key存儲在conf對象中了，然后在map和reduce函數中調用load的方法便可以把對象讀出。

mapper獲取:

Configuration conf = context.getConfiguration()

Text out = DefaultStringifier.load(conf, "maxscore", Text.class);

需要說明的是，這個需要傳遞的對象必須要先實現序列化的接口，Hadoop的序列化是通過Writable接口來實現的。

(2) 參考自：http://blog.sina.com.cn/s/blog_6b7cf18f0100x9jg.html

2. 編寫 Streaming 程序時，如何向map、reduce函數傳遞參數

可以通過 streaming 的 cmdenv 選項設置環境變量，然后在 map 和 reduce 腳本中獲取環境變量。

可參考 << hadoop streaming 高級編程 >>

http://dongxicheng.org/mapreduce/hadoop-streaming-advanced-programming/

(0) 作業提交腳本:

#!/usr/bin/env bash

max_read_count=${array[0]}

min_read_count=${array[1]}

max_write_count=${array[2]}

min_write_count=${array[3]}

hadoop jar $HADOOP_HOME/contrib/streaming/hadoop-0.20.2-streaming.jar \

-D mapred.reduce.tasks=1 \

-input $input \

-output $output \

-mapper $mapper_script \

-file $map_file \

-reducer $reducer_script \

-file $reduce_file \

-cmdenv "max_read_count=${array[0]}" \ # 設置環境變量 max_read_count .

-cmdenv "min_read_count=${array[1]}" \ # 多個變量時請多次使用 -cmdenv

-cmdenv "max_write_count=${array[2]}" \

-cmdenv "min_write_count=${array[3]}" \

(1) Python mapper.py

#!/usr/bin/env python

import sys

import os

min_r_count = float(os.environ.get('min_read_count')) # get environment variables.

max_r_count = float(os.environ.get('max_read_count'))

min_w_count = float(os.environ.get('min_write_count'))

max_w_count = float(os.environ.get('max_write_count'))

(2)Shell mapper.sh

#!/usr/bin/env bash

while read line # 讀入行

a=$line

done

echo $min_read_count $max_read_count # get environment variables.

(3)C/C++ mapper.c

#include <stdio.h>

#include <string.h>

int main(int argc, char *argv[], char *env[])

{

double min_r_count;

int i = 0;

for (i = 0; env[i] != NULL; i++) // env[i] 存儲了環境變量, 每項的值為此種形式: PATH=******, 所以需要截取變量值

{

if( strstr(env[i], "PATH=") ) {

char *p =NULL;

p = strstr(env[i], "=");

if( (p-env[i]) == 4 )

printf("%s\n", ++p); // 獲取 PATH 環境變量

}

if( strstr(env[i], "min_write_count=") ) {

char *p =NULL;

p = strstr(env[i], "=");

if( (p-env[i]) == strlen("min_write_count") )

printf("%s\n", ++p); // 獲取 min_write_count 環境變量

}

char eachLine[200]={0};

while(fgets(eachLine, 199, stdin)) // read line from stdin

{

printf("%s", eachLine);

}

注意：

Hadoop執行命令時的選項有順序的, 順序是 bin/hadoop command [genericOptions] [commandOptions].

對於streaming, -D 屬於genericOptions, 即hadoop的通用選項, 所以必須寫在前面.

Streaming 的所有選項可以參考:

hadoop jar $HADOOP_HOME/contrib/streaming/hadoop-0.20.2-streaming.jar -info

3. 編寫 Streaming 程序時，如何向map、reduce函數傳遞文件或文件夾。

(1) streaming 加載本地單個文件

streaming 支持 -file 選項, 可以把 -file 后面的本地文件(注意是本地文件)打包成作業提交的一部分, 即打包到作業的jar文件當中, 這樣在mapreduce腳本中就可以像訪問本地文件一樣訪問打包的文件了.

實例:

作業提交文件 run.sh

mapper.py

注意：在提交作業時使用的是 -file logs/wbscoretest.log 指定需要加載的文件. 在 map 腳本中只需要直接讀取文件 wbscoretest.log 即可, 不需要寫 logs/wbscoretest.log, 因為只加載了文件 wbscoretest.log, 而不會加載 logs 目錄和

wbscoretest.log 文件.

(2) streaming 加載本地多個文件