MapReduce中的map個數

本文轉載自查看原文 2016-07-16 16:33 5737 mapreduce/ map個數/ MapReduce中的map個數

在map階段讀取數據前，FileInputFormat會將輸入文件分割成split。split的個數決定了map的個數。影響map個數（split個數）的主要因素有：

1) 文件的大小。當塊（dfs.block.size）為128m時，如果輸入文件為128m，會被划分為1個split；當塊為256m，會被划分為2個split。

2) 文件的個數。FileInputFormat按照文件分割split，並且只會分割大文件，即那些大小超過HDFS塊的大小的文件。如果HDFS中dfs.block.size設置為128m，而輸入的目錄中文件有100個，則划分后的split個數至少為100個。

3) splitsize的大小。分片是按照splitszie的大小進行分割的，一個split的大小在沒有設置的情況下，默認等於hdfs block的大小。但應用程序可以通過兩個參數來對splitsize進行調節

InputSplit=Math.max(minSize, Math.min(maxSize, blockSize)

其中：

minSize=mapred.min.split.size

maxSize=mapred.max.split.size

我們可以在MapReduce程序的驅動部分添加如下代碼：

TextInputFormat.setMinInputSplitSize(job,1024L); // 設置最小分片大小

TextInputFormat.setMaxInputSplitSize(job,1024×1024×10L); // 設置最大分片大小

總結如下：

當mapreduce.input.fileinputformat.split.maxsize > mapreduce.input.fileinputformat.split.minsize > dfs.blockSize的情況下，此時的splitSize 將由mapreduce.input.fileinputformat.split.minsize參數決定

當mapreduce.input.fileinputformat.split.maxsize > dfs.blockSize > mapreduce.input.fileinputformat.split.minsize的情況下，此時的splitSize 將由dfs.blockSize配置決定

當dfs.blockSize > mapreduce.input.fileinputformat.split.maxsize > mapreduce.input.fileinputformat.split.minsize的情況下，此時的splitSize將由mapreduce.input.fileinputformat.split.maxsize參數決定。

如果，您認為閱讀這篇博客讓您有些收獲，不妨點擊一下右下角的【推薦】。
如果，您希望更容易地發現我的新博客，不妨點擊一下左下角的【關注我】。
如果，您對我的博客所講述的內容有興趣，請繼續關注我的后續博客，我是【劉超★ljc】。

本文版權歸作者和博客園共有，歡迎轉載，但未經作者同意必須保留此段聲明，且在文章頁面明顯位置給出原文連接，否則保留追究法律責任的權利。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 mapreduce中map和reduce個數 mapreduce 中 map數量與文件大小的關系 MapReduce中map並行度優化及源碼分析 MapReduce: map讀取文件的過程關於mapreduce.map.java.opts Mapreduce實例——Map端join 利用map統計list中對象某一屬性的個數如何確定Hadoop中map和reduce的個數--map和reduce數量之間的關系是什么？ Hive 設置map 和 reduce 的個數 MapReduce剖析筆記之八: Map輸出數據的處理類MapOutputBuffer分析