Map、Reduce和Job方法總結

本文轉載自查看原文 2019-09-14 21:05 427 MapReduce

map方法：

map的方法

public void map(Object key, Text value, Context context) throws IOException, InterruptedException {…}

key:偏移量，一般為0，用不到
value：每行的值
context：可以記錄輸入的key和value

例如：context.write(new Text("hadoop"), new IntWritable(1));
此外context還會記錄map運算的狀態。

               
map的方法
public void map(Object key, Text value, Context context) throws IOException, InterruptedException {…}
key:偏移量，一般為0，用不到
value：每行的值
context：可以記錄輸入的key和value
例如：context.write(new Text("hadoop"), new IntWritable(1));
此外context還會記錄map運算的狀態。

rediuce方法:

reduce的方法

public void reduce(Text key, Iterable<IntWritable> values, Context context) throws IOException, InterruptedException {…}

reduce函數的輸入也是一個key/value的形式，
不過它的value是一個迭代器的形式Iterable<IntWritable> values，

也就是說reduce的輸入是一個key對應一組的值的value，reduce也有context和map的context作用一致。

               
reduce的方法
public void reduce(Text key, Iterable<IntWritable> values, Context context) throws IOException, InterruptedException {…}
reduce函數的輸入也是一個key/value的形式，
不過它的value是一個迭代器的形式Iterable<IntWritable> values，
也就是說reduce的輸入是一個key對應一組的值的value，reduce也有context和map的context作用一致。

job:

    Job job = new Job(conf, "word count");
    job.setJarByClass(WordCount.class);
    job.setMapperClass(TokenizerMapper.class);
    job.setCombinerClass(IntSumReducer.class);
    job.setReducerClass(IntSumReducer.class);
    job.setOutputKeyClass(Text.class);
    job.setOutputValueClass(IntWritable.class);

第一行就是在構建一個job，在mapreduce框架里一個mapreduce任務也叫mapreduce作業也叫做一個mapreduce的job，而具體的map和reduce運算就是task了，這里我們構建一個job，構建時候有兩個參數，一個是conf這個就不贅述了，一個是這個job的名稱。
　　
第二行就是裝載程序員編寫好的計算程序，例如我們的程序類名就是WordCount了。這里我要做下糾正，雖然我們編寫mapreduce程序只需要實現map函數和reduce函數，但是實際開發我們要實現三個類，第三個類是為了配置mapreduce如何運行map和reduce函數，准確的說就是構建一個mapreduce能執行的job了，例如WordCount類。
　　
第三行和第五行就是裝載map函數和reduce函數實現類了，第四行是裝載Combiner類。

第六行和第七行是定義輸出的key/value的類型，也就是最終存儲在hdfs上結果文件的key/value的類型。

               
                 x 
                
    Job job = new Job(conf, "word count");
    job.setJarByClass(WordCount.class);
    job.setMapperClass(TokenizerMapper.class);
    job.setCombinerClass(IntSumReducer.class);
    job.setReducerClass(IntSumReducer.class);
    job.setOutputKeyClass(Text.class);
    job.setOutputValueClass(IntWritable.class);
第一行就是在構建一個job，在mapreduce框架里一個mapreduce任務也叫mapreduce作業也叫做一個mapreduce的job，而具體的map和reduce運算就是task了，這里我們構建一個job，構建時候有兩個參數，一個是conf這個就不贅述了，一個是這個job的名稱。
　　
第二行就是裝載程序員編寫好的計算程序，例如我們的程序類名就是WordCount了。這里我要做下糾正，雖然我們編寫mapreduce程序只需要實現map函數和reduce函數，但是實際開發我們要實現三個類，第三個類是為了配置mapreduce如何運行map和reduce函數，准確的說就是構建一個mapreduce能執行的job了，例如WordCount類。
　　
第三行和第五行就是裝載map函數和reduce函數實現類了，第四行是裝載Combiner類。
第六行和第七行是定義輸出的key/value的類型，也就是最終存儲在hdfs上結果文件的key/value的類型。

    FileInputFormat.addInputPath(job, new Path(otherArgs[0]));
    FileOutputFormat.setOutputPath(job, new Path(otherArgs[1]));
    System.exit(job.waitForCompletion(true) ? 0 : 1);

第一行就是構建輸入的數據文件
第二行是構建輸出的數據文件
最后一行如果job運行成功了，我們的程序就會正常退出。
FileInputFormat和FileOutputFormat可以設置輸入輸出文件路徑，mapreduce計算時候，輸入文件必須存在，要不直Mr任務直接退出。輸出一般是一個文件夾，而且該文件夾不能存在。

               
    FileInputFormat.addInputPath(job, new Path(otherArgs[0]));
    FileOutputFormat.setOutputPath(job, new Path(otherArgs[1]));
    System.exit(job.waitForCompletion(true) ? 0 : 1);
第一行就是構建輸入的數據文件
第二行是構建輸出的數據文件
最后一行如果job運行成功了，我們的程序就會正常退出。
FileInputFormat和FileOutputFormat可以設置輸入輸出文件路徑，mapreduce計算時候，輸入文件必須存在，要不直Mr任務直接退出。輸出一般是一個文件夾，而且該文件夾不能存在。

map端job：圖示：

reduce端job：圖示：

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 數組reduce和map方法 reduce方法使用總結數組的高階方法map filter reduce的使用使用 reduce 實現數組 map 方法 JavaScript數組forEach()、map()、reduce()方法 ES6 數組遍歷方法的實戰用法總結（forEach，every，some，map，filter，reduce，reduceRight，indexOf，lastIndexOf） MapReduce剖析筆記之三：Job的Map/Reduce Task初始化 Swift 中map、flatMap、compactMap、filer、reduce的使用總結關於 Promise.all, map, reduce, mapSeries, each 方法 JS Array常用方法indexOf/filter/forEach/map/reduce詳解