hive怎样决定reducer个数

本文转载自查看原文 2013-01-03 19:20 2787 hadoop

Hadoop MapReduce程序中，reducer个数的设定极大影响执行效率，这使得Hive怎样决定reducer个数成为一个关键问题。遗憾的是Hive的估计机制很弱，不指定reducer个数的情况下，Hive会猜测确定一个reducer个数，基于以下两个设定：

1. hive.exec.reducers.bytes.per.reducer（默认为1000^3）

2. hive.exec.reducers.max（默认为999）

计算reducer数的公式很简单：

N=min(参数2，总输入数据量/参数1)

通常情况下，有必要手动指定reducer个数。考虑到map阶段的输出数据量通常会比输入有大幅减少，因此即使不设定reducer个数，重设参数2还是必要的。依据Hadoop的经验，可以将参数2设定为0.95*(集群中TaskTracker个数)。

转自 http://www.alidata.org/archives/622

本站转载的文章为个人学习借鉴使用，本站对版权不负任何法律责任。如果侵犯了您的隐私权益，请联系本站邮箱yoyou2525@163.com删除。

猜您在找 TempDB为什么要根据CPU数目来决定文件个数 BeanShell断言:根据响应的2个数据的比较结果来决定断言 Hive 设置map 和 reduce 的个数关于hive中的reduce个数的设置。在C++的函数中如何指定一个数组，使得这个数组的大小由函数的输入值来决定多个Mapper和Reducer的Job 3.控制hive map reduce个数 hive中控制文件生产个数 React学习（2）——action，reducer Mapper 与 Reducer 解析