Hadoop記錄-hive merge小文件

本文轉載自查看原文 2019-04-10 15:57 718 Hadoop技術相關

1. Map輸入合並小文件
對應參數：
set mapred.max.split.size=256000000; #每個Map最大輸入大小
set mapred.min.split.size.per.node=100000000; #一個節點上split的至少的大小
set mapred.min.split.size.per.rack=100000000; #一個交換機下split的至少的大小
set hive.input.format=org.apache.hadoop.hive.ql.io.CombineHiveInputFormat; #執行Map前進行小文件合並

在開啟了org.apache.hadoop.hive.ql.io.CombineHiveInputFormat后，一個data node節點上多個小文件會進行合並，合並文件數由mapred.max.split.size限制的大小決定。
mapred.min.split.size.per.node決定了多個data node上的文件是否需要合並~
mapred.min.split.size.per.rack決定了多個交換機上的文件是否需要合並~

2.輸出合並
set hive.merge.mapfiles = true #在Map-only的任務結束時合並小文件
set hive.merge.mapredfiles = true #在Map-Reduce的任務結束時合並小文件
set hive.merge.size.per.task = 256*1000*1000 #合並文件的大小
set hive.merge.smallfiles.avgsize=16000000 #當輸出文件的平均大小小於該值時，啟動一個獨立的map-reduce任務進行文件merge

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 Hive小文件合並 hadoop小文件合並 hive小文件合並 Hive小文件處理 Hadoop 小文件處理 Hive如何處理小文件問題？ hive優化之小文件合並 Hadoop小文件存儲方案 hadoop spark合並小文件 Hadoop小文件影響及解決