原文:[大牛翻译系列]Hadoop(14)MapReduce 性能调优:减小数据倾斜的性能损失

. . 减小数据倾斜的性能损失 数据倾斜是数据中的常见情况。数据中不可避免地会出现离群值 outlier ,并导致数据倾斜。这些离群值会显著地拖慢MapReduce的执行。常见的数据倾斜有以下几类: 数据频率倾斜 某一个区域的数据量要远远大于其他区域。 数据大小倾斜 部分记录的大小远远大于平均值。 在map端和reduce端都有可能发生数据倾斜。在map端的数据倾斜会让多样化的数据集的处理效率更 ...

2014-03-16 11:44 0 4234 推荐指数:

查看详情

[大牛翻译系列]Hadoop(8)MapReduce 性能性能测量(Measuring)

6.1 测量MapReduce和环境的性能指标 性能的基础系统的性能指标和实验数据。依据这些指标和数据,才能找到系统的性能瓶颈。性能指标和实验数据要通过一系列的工具和过程才能得到。 这部分里,将介绍Hadoop自带的工具和性能指标。还将捎带介绍性能监控工具。 6.1.1 作业 ...

Mon Mar 10 14:40:00 CST 2014 2 2045
[大牛翻译系列]Hadoop(13)MapReduce 性能:优化洗牌(shuffle)和排序阶段

6.4.3 优化洗牌(shuffle)和排序阶段 洗牌和排序阶段都很耗费资源。洗牌需要在map和reduce任务之间传输数据,会导致过大的网络消耗。排序和合并操作的消耗也是很显著的。这一节将介绍一系列的技术来缓解洗牌和排序阶段的消耗。 技术46 规避使用reduce Reduce在用于连接数据 ...

Sat Mar 15 14:39:00 CST 2014 0 3158
Spark性能优化:数据倾斜

前言 继《Spark性能优化:开发篇》和《Spark性能优化:资源篇》讲解了每个Spark开发人员都必须熟知的开发与资源之后,本文作为《Spark性能优化指南》的高级篇,将深入分析数据倾斜与shuffle,以解决更加棘手的性能问题 ...

Tue Nov 22 22:33:00 CST 2016 0 7670
Spark性能之解决数据倾斜

Spark性能之解决数据倾斜 数据倾斜七种解决方案 shuffle的过程最容易引起数据倾斜 1.使用Hive ETL预处理数据 ...

Sun Mar 12 22:23:00 CST 2017 0 3365
Spark性能优化--数据倾斜与shuffle

一、数据倾斜发生的原理 原理:在进行shuffle的时候,必须将各个节点上相同的key拉取到某个节点上的一个task来进行处理,比如按照key进行聚合或join等操作。此时如果某个key对应的数据量特别大的话,就会发生数据倾斜数据倾斜只会发生在shuffle过程中。常用的并且可能会触发 ...

Wed Nov 01 02:02:00 CST 2017 0 5012
Hadoop性能

1 硬件选择 主要区分NAMENODE与DATANODE的功能需求,NN维护全局元数据信息,随着保存的INODES数量的增加,对内存需求增加,按每一百万INODES一G来粗略计算,JVM的XMX参数需要动态调整。 2 OS参数 操作系统,生产环境中都使用LINUX,以下就是指对LINUX ...

Wed Jan 11 05:07:00 CST 2017 0 2402
[大牛翻译系列]Hadoop(7)MapReduce:抽样(Sampling)

4.3 抽样(Sampling) 用基于MapReduce的程序来处理TB级的数据集,要花费的时间可能是数以小时计。仅仅是优化代码是很难达到良好的效果。 在开发和调试代码的时候,没有必要处理整个数据集。但如果在这种情况下要保证数据集能够被正确地处理,就需要用到抽样了。抽样是统计学中的一个方法 ...

Sun Mar 09 16:09:00 CST 2014 0 3091
 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM