规范: 1.开发规范 SQL子查询嵌套不宜超过3层。 少用或者不用Hint,hive2.0以后增强HiveSQL对于成本调优(CBO)的支持 避免SQL 代码的复制、粘贴。如果有多处逻辑一致的代码,可以将执行结果存储到临时表中。 尽可能使用SQL 自带的高级命令做操作。在多维 ...
背景 在刚使用hive的过程中,碰到过很多问题,任务经常需要运行 , 个小时甚至更久,在此记录一下这个过程中,我的一些收获 join长尾 背景 SQL在Join执行阶段会将Join Key相同的数据分发到同一个执行Instance上处理。如果某个Key上的数据量比较多,会导致该Instance执行时间比其他Instance执行时间长。其表现为:执行日志中该Join Task的大部分Instance ...
2017-05-18 17:02 0 13679 推荐指数:
规范: 1.开发规范 SQL子查询嵌套不宜超过3层。 少用或者不用Hint,hive2.0以后增强HiveSQL对于成本调优(CBO)的支持 避免SQL 代码的复制、粘贴。如果有多处逻辑一致的代码,可以将执行结果存储到临时表中。 尽可能使用SQL 自带的高级命令做操作。在多维 ...
在生产系统中,高吞吐和低延迟一直都是JVM调优的最终目标,但这两者恰恰又是相悖的,鱼和熊掌不可兼得,所以在调优之前要清楚舍谁而取谁。一般计算任务和组件服务会偏向高吞吐,而web展示则偏向低延迟才会带来更好的用户体验。 本文从性能和经验上来分享一下JVM参数的设置。 调优之前可以先用-XX ...
一、前言 公司实用Hadoop构建数据仓库,期间不可避免的实用HiveSql,在Etl过程中,速度成了避无可避的问题。本人有过几个数据表关联跑1个小时的经历,你可能觉得无所谓,可是多次Etl就要多个小时,非常浪费时间,所以HiveSql优化不可避免。 注:本文只是从sql层面介绍一下日常需要 ...
前言: 最近发现hivesql的执行速度特别慢,前面我们已经说明了left和union的优化,下面咱们分析一下增加或者减少reduce的数量来提升hsql的速度。 参考:http://www.cnblogs.com/liqiu/p/4873238.html 分析: 上一篇博文 ...
1.2017年连续爆出5.x版本xshell安全问题和intel的cpu设计漏洞 ,此时我就注意到尽量少暴露自己线上使用的工具以及版本。例如:mysql版本,以及缓存层策略,服务器版本等,以下为 隐藏 ...
本文转载自JVM性能调优经验总结 说明 调优是一个循序渐进的过程,必然需要经历多次迭代,最终才能换取一个较好的折中方案。 在JVM调优这个领域,没有任何一种调优方案是适用于所有应用场景的,同时,切勿极端才能够达到JVM性能调优的真正目的和意义。 调优策略 核心 ...
HDFS小文件弊端: HDFS上每个文件都要在namenode上建立一个索引,这个索引的大小约为150byte,这样当小文件比较多的时候,就会产生很多的索引文件,一方面会大量占用name ...
最近因项目存在内存泄漏,故进行大规模的JVM性能调优 , 现把经验做一记录。 一、JVM内存模型及垃圾收集算法 1.根据Java虚拟机规范,JVM将内存划分为: New(年轻代) Tenured(年老代) 永久代(Perm) 其中New和Tenured属于堆内存 ...