原文:HiveSql调优经验

背景 在刚使用hive的过程中,碰到过很多问题,任务经常需要运行 , 个小时甚至更久,在此记录一下这个过程中,我的一些收获 join长尾 背景 SQL在Join执行阶段会将Join Key相同的数据分发到同一个执行Instance上处理。如果某个Key上的数据量比较多,会导致该Instance执行时间比其他Instance执行时间长。其表现为:执行日志中该Join Task的大部分Instance ...

2017-05-18 17:02 0 13679 推荐指数:

查看详情

hive的经验

规范: 1.开发规范 SQL子查询嵌套不宜超过3层。 少用或者不用Hint,hive2.0以后增强HiveSQL对于成本(CBO)的支持 避免SQL 代码的复制、粘贴。如果有多处逻辑一致的代码,可以将执行结果存储到临时表中。 尽可能使用SQL 自带的高级命令做操作。在多维 ...

Sat Aug 29 20:44:00 CST 2020 0 735
JVM经验

在生产系统中,高吞吐和低延迟一直都是JVM的最终目标,但这两者恰恰又是相悖的,鱼和熊掌不可兼得,所以在之前要清楚舍谁而取谁。一般计算任务和组件服务会偏向高吞吐,而web展示则偏向低延迟才会带来更好的用户体验。 本文从性能和经验上来分享一下JVM参数的设置。 之前可以先用-XX ...

Wed Aug 14 17:26:00 CST 2019 0 721
Etl之HiveSql(left join where的位置)

一、前言 公司实用Hadoop构建数据仓库,期间不可避免的实用HiveSql,在Etl过程中,速度成了避无可避的问题。本人有过几个数据表关联跑1个小时的经历,你可能觉得无所谓,可是多次Etl就要多个小时,非常浪费时间,所以HiveSql优化不可避免。 注:本文只是从sql层面介绍一下日常需要 ...

Tue Oct 13 07:19:00 CST 2015 0 12858
Etl之HiveSql(设置map reduce 的数量)

前言: 最近发现hivesql的执行速度特别慢,前面我们已经说明了left和union的优化,下面咱们分析一下增加或者减少reduce的数量来提升hsql的速度。 参考:http://www.cnblogs.com/liqiu/p/4873238.html 分析: 上一篇博文 ...

Thu Oct 15 01:25:00 CST 2015 0 9861
Nginx 经验记录

1.2017年连续爆出5.x版本xshell安全问题和intel的cpu设计漏洞 ,此时我就注意到尽量少暴露自己线上使用的工具以及版本。例如:mysql版本,以及缓存层策略,服务器版本等,以下为 隐藏 ...

Sun Mar 04 22:46:00 CST 2018 0 1194
JVM性能经验总结

本文转载自JVM性能经验总结 说明 是一个循序渐进的过程,必然需要经历多次迭代,最终才能换取一个较好的折中方案。 在JVM这个领域,没有任何一种方案是适用于所有应用场景的,同时,切勿极端才能够达到JVM性能的真正目的和意义。 策略 核心 ...

Fri Jul 10 02:03:00 CST 2020 0 870
Hadoop之小文件处理与经验

HDFS小文件弊端: HDFS上每个文件都要在namenode上建立一个索引,这个索引的大小约为150byte,这样当小文件比较多的时候,就会产生很多的索引文件,一方面会大量占用name ...

Thu Jul 05 07:09:00 CST 2018 0 2193
jvm 性能 经验总结---转

最近因项目存在内存泄漏,故进行大规模的JVM性能 , 现把经验做一记录。 一、JVM内存模型及垃圾收集算法 1.根据Java虚拟机规范,JVM将内存划分为: New(年轻代) Tenured(年老代) 永久代(Perm) 其中New和Tenured属于堆内存 ...

Tue Mar 21 01:17:00 CST 2017 0 2888
 
粤ICP备18138465号  © 2018-2026 CODEPRJ.COM