hive优化之小文件合并

本文转载自查看原文 2019-03-29 15:26 3153 hive

文件数目过多，会给HDFS带来压力，并且会影响处理效率，可以通过合并Map和Reduce的结果文件来消除这样的影响：

set hive.merge.mapfiles = true ##在 map only 的任务结束时合并小文件

set hive.merge.mapredfiles = false ## true 时在 MapReduce 的任务结束时合并小文件

set hive.merge.size.per.task = 256*1000*1000 ##合并文件的大小

set mapred.max.split.size=256000000; ##每个 Map 最大分割大小

set mapred.min.split.size.per.node=1; ##一个节点上 split 的最少值

set hive.input.format=org.apache.hadoop.hive.ql.io.CombineHiveInputFormat; ##执行 Map 前进行小文件合并

本站转载的文章为个人学习借鉴使用，本站对版权不负任何法律责任。如果侵犯了您的隐私权益，请联系本站邮箱yoyou2525@163.com删除。

猜您在找 Hive小文件合并 hive小文件合并设置参数 Spark定期合并Hive表小文件第十章 Hive调优【小文件合并】 hadoop小文件合并 Hive如何处理小文件问题？ HDFS操作及小文件合并 hadoop spark合并小文件 Hadoop实战项目：小文件合并 (翻译)Hadoop中合并小文件