hadoop多文件輸出

本文轉載自查看原文 2016-03-24 16:28 2850 hadoop

現實環境中，常常遇到一個問題就是想使用多個Reduce，但是迫於setup和cleanup在每一個Reduce中會調用一次，只能設置一個Reduce，無法是實現負載均衡。

問題，如果要在reduce中輸出兩種文件，一種是標志，另一種是正常業務數據，實現方案有三種：

（1）設置一個reduce，在reduce中將數據封裝到一個集合中，在cleanup中將數據寫入到hdfs中，但是如果數據量巨大，一個reduce無法充分利用資源，實現負載均衡，但是如果數據量較小，可以使用

（2）設置多文件輸出，使用MultipleOutputs類

具體見代碼：

[java] view plain copy print ?

[java] view plain copy print ?

[java] view plain copy print ?

<pre name="code" class="java">MultipleOutputs.addNamedOutput(job, "a", TextOutputFormat.class, Text.class, Text.class);
MultipleOutputs.addNamedOutput(job, "b", TextOutputFormat.class, Text.class, Text.class);
MultipleOutputs.addNamedOutput(job, "c", TextOutputFormat.class, Text.class, Text.class);

[java] view plain copy print ?

（3）第三種方案是自己實現多文件輸出詳見http://blog.csdn.net/qingmu0803/article/details/39665407

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 hadoop輸出lzo文件並添加索引 hadoop的MultipleOutputs多目錄輸出 hadoop 輸出中文亂碼問題 Hadoop 學習筆記一 ---MapReduce 的輸入和輸出 Hadoop 小文件處理 hadoop的HDFS文件存儲 hadoop文件合並初識Hadoop二，文件操作在hadoop上運行java文件 Hadoop文件分片與InputFormat