根據。方案最右側一欄是一個8G VM的分配方案,方案預留1-2G的內存給操作系統,分配4G給Yarn/MapReduce,當然也包括了HIVE,剩余的2-3G是在需要使用HBase時預留給HBase的。
內存調優
一、AM、Container大小設置
1、tez.am.resource.memory.mb #設置 tez AM容器內存
默認值:1024 配置文件:tez-site.xml
建議:不小於或者等於yarn.scheduler.minimum-allocation-mb值。
2、hive.tez.container.size #設置 tez container內存
默認值:-1 默認情況下,Tez將生成一個mapper大小的容器。這可以用來覆蓋默認值。 配置文件:hive-site-xml
建議:不小於或者是yarn.scheduler.minimum-allocation-mb的倍數
二、AM、Container JVM參數設置
1、tez.am.launch.cmd-opts #設置 AM jvm,啟動TEZ任務進程期間提供的命令行選項。
默認值:-XX:+PrintGCDetails -verbose:gc -XX:+PrintGCTimeStamps -XX:+UseNUMA -XX:+UseParallelGC(用於GC),默認的大小:80%*tez.am.resource.memory.mb
配置文件:tez-site.xml
建議:不要在這些啟動選項中設置任何xmx或xms,以便tez可以自動確定它們。
2、hive.tez.java.ops #設置 container jvm
默認值:Hortonworks建議“–server –Djava.net.preferIPv4Stack=true–XX:NewRatio=8 –XX:+UseNUMA –XX:UseG1G”,默認大小:80%*hive.tez.container.size
說明:在hive 2.x的官方文檔中沒有找到這個參數。看有些博客里面有這個值。
配置文件:hive-site.xml
3、tez.container.max.java.heap.fraction #設置task/AM占用jvm內存大小的比例。
默認值:0.8
配置文件:tez-site.xml
說明:這個值按具體需要調整,當內存不足時,一般都要調小。
三、Hive內存Map Join參數設置
1、tez.runtime.io.sort.mb #設置輸出排序內存大小
默認值:100
配置文件:tez-site.xml
建議:40%*hive.tez.container.size,一般不超過2G
2、hive.auto.convert.join.noconditionaltask #是否將多個mapjoin合並為一個
默認值:true
建議使用默認值。
配置文件:hive-site.xml
3、hive.auto.convert.join.noconditionaltask.size
默認值:10000000 (10M)
說明:這個參數使用的前提是hive.auto.convert.join.noconditionaltask值為true,多個mapjoin轉換為1個時,所有小表的文件大小總和小於這個值,這個值只是限制輸入的表文件的大小,並不代表實際mapjoin時hashtable的大小。 建議值:1/3* hive.tez.container.size
配置文件:hive-site.xml
4、tez.runtime.unordered.output.buffer.size-mb #如果不直接寫入磁盤,使用的緩沖區大小
默認值:100M
建議:10%* hive.tez.container.size
配置文件:tez-site.xml
5、tez.am.container.reuse.enabled #容器重用
默認值:true
配置文件:tez-ste.xml