規范: 1.開發規范 SQL子查詢嵌套不宜超過3層。 少用或者不用Hint,hive2.0以后增強HiveSQL對於成本調優(CBO)的支持 避免SQL 代碼的復制、粘貼。如果有多處邏輯一致的代碼,可以將執行結果存儲到臨時表中。 盡可能使用SQL 自帶的高級命令做操作。在多維 ...
背景 在剛使用hive的過程中,碰到過很多問題,任務經常需要運行 , 個小時甚至更久,在此記錄一下這個過程中,我的一些收獲 join長尾 背景 SQL在Join執行階段會將Join Key相同的數據分發到同一個執行Instance上處理。如果某個Key上的數據量比較多,會導致該Instance執行時間比其他Instance執行時間長。其表現為:執行日志中該Join Task的大部分Instance ...
2017-05-18 17:02 0 13679 推薦指數:
規范: 1.開發規范 SQL子查詢嵌套不宜超過3層。 少用或者不用Hint,hive2.0以后增強HiveSQL對於成本調優(CBO)的支持 避免SQL 代碼的復制、粘貼。如果有多處邏輯一致的代碼,可以將執行結果存儲到臨時表中。 盡可能使用SQL 自帶的高級命令做操作。在多維 ...
在生產系統中,高吞吐和低延遲一直都是JVM調優的最終目標,但這兩者恰恰又是相悖的,魚和熊掌不可兼得,所以在調優之前要清楚舍誰而取誰。一般計算任務和組件服務會偏向高吞吐,而web展示則偏向低延遲才會帶來更好的用戶體驗。 本文從性能和經驗上來分享一下JVM參數的設置。 調優之前可以先用-XX ...
一、前言 公司實用Hadoop構建數據倉庫,期間不可避免的實用HiveSql,在Etl過程中,速度成了避無可避的問題。本人有過幾個數據表關聯跑1個小時的經歷,你可能覺得無所謂,可是多次Etl就要多個小時,非常浪費時間,所以HiveSql優化不可避免。 注:本文只是從sql層面介紹一下日常需要 ...
前言: 最近發現hivesql的執行速度特別慢,前面我們已經說明了left和union的優化,下面咱們分析一下增加或者減少reduce的數量來提升hsql的速度。 參考:http://www.cnblogs.com/liqiu/p/4873238.html 分析: 上一篇博文 ...
1.2017年連續爆出5.x版本xshell安全問題和intel的cpu設計漏洞 ,此時我就注意到盡量少暴露自己線上使用的工具以及版本。例如:mysql版本,以及緩存層策略,服務器版本等,以下為 隱藏 ...
本文轉載自JVM性能調優經驗總結 說明 調優是一個循序漸進的過程,必然需要經歷多次迭代,最終才能換取一個較好的折中方案。 在JVM調優這個領域,沒有任何一種調優方案是適用於所有應用場景的,同時,切勿極端才能夠達到JVM性能調優的真正目的和意義。 調優策略 核心 ...
HDFS小文件弊端: HDFS上每個文件都要在namenode上建立一個索引,這個索引的大小約為150byte,這樣當小文件比較多的時候,就會產生很多的索引文件,一方面會大量占用name ...
最近因項目存在內存泄漏,故進行大規模的JVM性能調優 , 現把經驗做一記錄。 一、JVM內存模型及垃圾收集算法 1.根據Java虛擬機規范,JVM將內存划分為: New(年輕代) Tenured(年老代) 永久代(Perm) 其中New和Tenured屬於堆內存 ...