【hadoop】如何向map和reduce腳本傳遞參數,加載文件和目錄


本文主要講解三個問題:
      1 使用Java編寫MapReduce程序時,如何向map、reduce函數傳遞參數。
      2 使用Streaming編寫MapReduce程序(C/C++, Shell, Python)時,如何向map、reduce腳本 傳遞參數
      3 使用Streaming編寫MapReduce程序(C/C++, Shell, Python)時,如何向map、reduce腳本 傳遞文件或文件夾
         (1) streaming 加載本地單個文件
          (2) streaming 加載本地多個文件
         (3) streaming 加載本地目錄
         (4) streaming編程時在mapreduce腳本中讀 hdfs 文件
         (5) streaming編程時在mapreduce腳本中讀 hdfs 目錄
 
1.  Java編寫MapReduce程序時,如何向map、reduce函數傳遞參數

我開始使用如下方式進行傳遞.

在主類中聲明兩個靜態變量, 然后在 main 函數中給變量賦值, 試圖在 map和reduce函數中獲得變量的值。
代碼結構類似如下:
提交到集群運行發現在 map 和 reduce函數中, 靜態變量MaxScore的值始終是初值1。
於是試圖在主類的靜態區中給變量賦值 (因為靜態區中的代碼比main中的代碼要先執行), 仍是不成功, MaxScore的值始終是初值1。
將上述代碼在 單機hadoop上運行, 結果正常, map 函數中能獲得變量的值。
思考是這個原因: 在提交作業到hadoop集群后,mapper類和reducer類就到各個 tasktracker上去運行了, 與主類獨立, 不能交互。
因此,上述往 map 和 reduce 函數傳參數的方法實在太天真。
於是想到其它一些方法: 例如將參數寫入hdfs文件中, 然后在 mapper 和 reducer 類的 run方法中讀取文件, 並將值讀到相應變量,這是可行的,但是方法較復雜,代碼如下:
上述方法盡管可用, 但是不是常規方法, 下面介紹常用的方法:
(1) 通過 Configuration 來傳遞參數
在main函數中調用set方法設置參數, 例如:
在mapper中通過上下文context來獲取當前作業的配置, 並獲取參數, 例如:
注: context 很有用, 能獲取當前作業的大量信息,例如上面就獲取了任務ID.
 
(2) 利用org.apache.hadoop.io.DefaultStringifier類

示例:

main中:

    Configuration conf = new Configuration();

    Text maxscore = new Text("12989");

    DefaultStringifier.store(conf, maxscore ,"maxscore");

這樣,Text對象maxscore就以“maxscore”作為key存儲在conf對象中了,然后在map和reduce函數中調用load的方法便可以把對象讀出。

mapper獲取:

    Configuration conf = context.getConfiguration()

    Text out = DefaultStringifier.load(conf, "maxscore", Text.class);

   需要說明的是,這個需要傳遞的對象必須要先實現序列化的接口,Hadoop的序列化是通過Writable接口來實現的

(2) 參考自:http://blog.sina.com.cn/s/blog_6b7cf18f0100x9jg.html

 

2.  編寫 Streaming 程序時,如何向map、reduce函數傳遞參數

可以通過 streaming 的 cmdenv 選項設置環境變量,然后在 map 和 reduce 腳本中獲取環境變量。

 

可參考 << hadoop streaming 高級編程 >>

http://dongxicheng.org/mapreduce/hadoop-streaming-advanced-programming/

 

(0) 作業提交腳本:

#!/usr/bin/env bash

max_read_count=${array[0]}

min_read_count=${array[1]}

max_write_count=${array[2]}

min_write_count=${array[3]}

 

hadoop jar $HADOOP_HOME/contrib/streaming/hadoop-0.20.2-streaming.jar \

  -D mapred.reduce.tasks=1 \   

  -input $input \

  -output $output  \

  -mapper $mapper_script \

  -file $map_file  \

  -reducer $reducer_script \

  -file $reduce_file \

  -cmdenv "max_read_count=${array[0]}" \      # 設置環境變量   max_read_count .   

  -cmdenv "min_read_count=${array[1]}" \       # 多個變量時請多次使用 -cmdenv   

  -cmdenv "max_write_count=${array[2]}" \

  -cmdenv "min_write_count=${array[3]}" \  

(1) Python mapper.py

#!/usr/bin/env python

import sys

import os

 

min_r_count = float(os.environ.get('min_read_count')) # get environment variables.

max_r_count = float(os.environ.get('max_read_count'))

min_w_count = float(os.environ.get('min_write_count'))

max_w_count = float(os.environ.get('max_write_count'))

 

(2)Shell mapper.sh

 

#!/usr/bin/env bash 

while read line  # 讀入行

do

   a=$line  

done

echo $min_read_count $max_read_count  # get environment variables.

 

(3)C/C++ mapper.c

 

#include <stdio.h>

#include <string.h>

int main(int argc, char *argv[], char *env[])

{

  double min_r_count;

  int i = 0;

  for (i = 0; env[i] != NULL; i++) // env[i] 存儲了環境變量, 每項的值為此種形式: PATH=******, 所以需要截取變量值

  { 

     if( strstr(env[i], "PATH=") ) {

       char *p =NULL;

       p = strstr(env[i], "=");

       if( (p-env[i]) == 4 )

         printf("%s\n", ++p); // 獲取 PATH 環境變量

     }

      if( strstr(env[i], "min_write_count=") ) {

 

       char *p =NULL;

       p = strstr(env[i], "=");

       if( (p-env[i]) == strlen("min_write_count") )

         printf("%s\n", ++p); // 獲取  min_write_count  環境變量

     }

 

  }

  char eachLine[200]={0};

  while(fgets(eachLine, 199, stdin)) // read line from stdin

  {

     printf("%s", eachLine);

  }

}

 

 


注意:
    Hadoop執行命令時的選項有順序的, 順序是 bin/hadoop command [genericOptions] [commandOptions]. 
    對於streaming, -D 屬於genericOptions, 即hadoop的通用選項, 所以必須寫在前面.
    Streaming 的所有選項可以參考:  
    hadoop jar $HADOOP_HOME/contrib/streaming/hadoop-0.20.2-streaming.jar -info
 
3.  編寫 Streaming 程序時,如何向map、reduce函數傳遞文件或文件夾。

(1) streaming 加載本地單個文件

streaming 支持 -file 選項, 可以把 -file 后面的本地文件(注意是本地文件)打包成作業提交的一部分, 即打包到作業的jar文件當中, 這樣在mapreduce腳本中就可以像訪問本地文件一樣訪問打包的文件了.

實例:

作業提交文件 run.sh

 

mapper.py

注意:在提交作業時使用的是 -file logs/wbscoretest.log 指定需要加載的文件. 在 map 腳本中只需要直接讀取文件 wbscoretest.log 即可, 不需要寫 logs/wbscoretest.log, 因為只加載了文件 wbscoretest.log, 而不會加載 logs 目錄和 

wbscoretest.log 文件.

(2) streaming 加載本地多個文件 

 

(3) streaming 加載本地目錄 ( 若加載多個目錄,用逗號隔開,-files dir1, dir2, dir3 )

使用streaming的 -file 選項不能加載本地目錄, 我實驗是如此.

我們可以使用 hadoop 的通用選項 -files 來加載本地目錄, 加載成功后在mapreduce腳本中可以像訪問本地目錄一樣訪問加載的目錄.

實際應用中,我們在編寫 分詞MapReduce作業時需要加載分詞詞典,就使用該方法.

作業提交腳本:  

map 腳本: 讀取目錄下的文件.

 

加載多個目錄:

 

注意:多個目錄之間用逗號隔開,且不能有空格,否則會出錯,這個限制太蛋疼了。

例如:

 

(4) streaming編程時在mapreduce腳本中讀 hdfs 文件

使用 -files 選項, 后面跟需要讀的 hdfs 文件路徑. 這樣在 mapreduce 腳本中就可以直接通過文件名來訪問該文件.

作業提交腳本:

map腳本: 

如果需要加載大文件, 我們可以將文件先上傳到 hdfs 中, 然后在 mapreduce 腳本中讀取 hdfs 文件.

 

 

 

(5) streaming編程時在mapreduce腳本中讀 hdfs 目錄

使用 -files 選項, 后面跟需要讀的 hdfs 目錄. 這樣在 mapreduce 腳本中就可以像訪問本地目錄一樣訪問該目錄.

作業提交腳本:

map腳本:  直接讀取 tmp_kentzhan 目錄.


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2026 CODEPRJ.COM