1 加大map,與reduce執行內存,由2改為3
2
yarn.nodemanager.vmem-pmem-ratio默認參數是2.1 調大可以減少物理內存出現不足的情況。
只要參數值*分配的內存>需要的內存值,就不會報錯。
3 添加spark shuffle
4 hbase region 大小設置
之前是10G ,現在改為100G,這樣減少region split的次數,從而減少出現region is not online 的情況發生。
- 單個ColumnFamily的region大小,若按照ConstantSizeRegionSplitPolicy策略,超過設置的該值則自動split
5 調大map 與reduce 的任務內存值,將map 任務內存調大到4G,CPU虛擬內核調大為4核,之間是1:1的關系
將reduce任務內存和CPU虛擬內核調大為4核,之間是1:1的關系
6 HDFS 的ACL權限設置: