hive怎樣決定reducer個數

本文轉載自查看原文 2013-01-03 19:20 2787 hadoop

Hadoop MapReduce程序中，reducer個數的設定極大影響執行效率，這使得Hive怎樣決定reducer個數成為一個關鍵問題。遺憾的是Hive的估計機制很弱，不指定reducer個數的情況下，Hive會猜測確定一個reducer個數，基於以下兩個設定：

1. hive.exec.reducers.bytes.per.reducer（默認為1000^3）

2. hive.exec.reducers.max（默認為999）

計算reducer數的公式很簡單：

N=min(參數2，總輸入數據量/參數1)

通常情況下，有必要手動指定reducer個數。考慮到map階段的輸出數據量通常會比輸入有大幅減少，因此即使不設定reducer個數，重設參數2還是必要的。依據Hadoop的經驗，可以將參數2設定為0.95*(集群中TaskTracker個數)。

轉自 http://www.alidata.org/archives/622

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 TempDB為什么要根據CPU數目來決定文件個數 BeanShell斷言:根據響應的2個數據的比較結果來決定斷言 Hive 設置map 和 reduce 的個數關於hive中的reduce個數的設置。在C++的函數中如何指定一個數組，使得這個數組的大小由函數的輸入值來決定多個Mapper和Reducer的Job 3.控制hive map reduce個數 hive中控制文件生產個數 React學習（2）——action，reducer Mapper 與 Reducer 解析