在map階段讀取數據前,FileInputFormat會將輸入文件分割成split。split的個數決定了map的個數。影響map個數(split個數)的主要因素有:
1) 文件的大小。當塊(dfs.block.size)為128m時,如果輸入文件為128m,會被划分為1個split;當塊為256m,會被划分為2個split。
2) 文件的個數。FileInputFormat按照文件分割split,並且只會分割大文件,即那些大小超過HDFS塊的大小的文件。如果HDFS中dfs.block.size設置為128m,而輸入的目錄中文件有100個,則划分后的split個數至少為100個。
3) splitsize的大小。分片是按照splitszie的大小進行分割的,一個split的大小在沒有設置的情況下,默認等於hdfs block的大小。但應用程序可以通過兩個參數來對splitsize進行調節
InputSplit=Math.max(minSize, Math.min(maxSize, blockSize)
其中:
minSize=mapred.min.split.size
maxSize=mapred.max.split.size
我們可以在MapReduce程序的驅動部分添加如下代碼:
TextInputFormat.setMinInputSplitSize(job,1024L); // 設置最小分片大小
TextInputFormat.setMaxInputSplitSize(job,1024×1024×10L); // 設置最大分片大小
總結如下:
當mapreduce.input.fileinputformat.split.maxsize > mapreduce.input.fileinputformat.split.minsize > dfs.blockSize的情況下,此時的splitSize 將由mapreduce.input.fileinputformat.split.minsize參數決定
當mapreduce.input.fileinputformat.split.maxsize > dfs.blockSize > mapreduce.input.fileinputformat.split.minsize的情況下,此時的splitSize 將由dfs.blockSize配置決定
當dfs.blockSize > mapreduce.input.fileinputformat.split.maxsize > mapreduce.input.fileinputformat.split.minsize的情況下,此時的splitSize將由mapreduce.input.fileinputformat.split.maxsize參數決定。
如果,您認為閱讀這篇博客讓您有些收獲,不妨點擊一下右下角的【推薦】。
如果,您希望更容易地發現我的新博客,不妨點擊一下左下角的【關注我】。
如果,您對我的博客所講述的內容有興趣,請繼續關注我的后續博客,我是【劉超★ljc】。
本文版權歸作者和博客園共有,歡迎轉載,但未經作者同意必須保留此段聲明,且在文章頁面明顯位置給出原文連接,否則保留追究法律責任的權利。