hive優化之小文件合並

本文轉載自查看原文 2019-03-29 15:26 3153 hive

文件數目過多，會給HDFS帶來壓力，並且會影響處理效率，可以通過合並Map和Reduce的結果文件來消除這樣的影響：

set hive.merge.mapfiles = true ##在 map only 的任務結束時合並小文件

set hive.merge.mapredfiles = false ## true 時在 MapReduce 的任務結束時合並小文件

set hive.merge.size.per.task = 256*1000*1000 ##合並文件的大小

set mapred.max.split.size=256000000; ##每個 Map 最大分割大小

set mapred.min.split.size.per.node=1; ##一個節點上 split 的最少值

set hive.input.format=org.apache.hadoop.hive.ql.io.CombineHiveInputFormat; ##執行 Map 前進行小文件合並

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 Hive小文件合並 hive小文件合並 hive中合並小文件合並hive/hdfs小文件 hive小文件合並設置參數 Spark定期合並Hive表小文件 Hive 利用 on tez 引擎合並小文件第十章 Hive調優【小文件合並】 hive任務處理小文件合並的參數配置 hive map-reduce個數及合並小文件