6.4.4 减小数据倾斜的性能损失 数据倾斜是数据中的常见情况。数据中不可避免地会出现离群值(outlier),并导致数据倾斜。这些离群值会显著地拖慢MapReduce的执行。常见的数据倾斜有以下几类: 数据频率倾斜——某一个区域的数据量要远远大于其他区域。 数据大小倾斜——部分记录 ...
. 测量MapReduce和环境的性能指标 性能调优的基础系统的性能指标和实验数据。依据这些指标和数据,才能找到系统的性能瓶颈。性能指标和实验数据要通过一系列的工具和过程才能得到。 这部分里,将介绍Hadoop自带的工具和性能指标。还将捎带介绍性能监控工具。 . . 作业统计数据抽取工具 这一章中介绍的很多技术都需要从Hadoop中抽取作业和任务的性能指标。有以下三种办法抽取这些统计数据: 用J ...
2014-03-10 06:40 2 2045 推荐指数:
6.4.4 减小数据倾斜的性能损失 数据倾斜是数据中的常见情况。数据中不可避免地会出现离群值(outlier),并导致数据倾斜。这些离群值会显著地拖慢MapReduce的执行。常见的数据倾斜有以下几类: 数据频率倾斜——某一个区域的数据量要远远大于其他区域。 数据大小倾斜——部分记录 ...
6.4.3 优化洗牌(shuffle)和排序阶段 洗牌和排序阶段都很耗费资源。洗牌需要在map和reduce任务之间传输数据,会导致过大的网络消耗。排序和合并操作的消耗也是很显著的。这一节将介绍一系列的技术来缓解洗牌和排序阶段的消耗。 技术46 规避使用reduce Reduce在用 ...
6.2 诊断性能瓶颈 有的时候作业的执行时间会长得惊人。想靠猜也是很难猜对问题在哪。这一章中将介绍如何界定问题,找到根源。涉及的工具中有的是Hadoop自带的,有的是本书提供的。 系统监控和Hadoop任务 在Hadoop的0.20.x版本中,并没有提供 ...
1 硬件选择 主要区分NAMENODE与DATANODE的功能需求,NN维护全局元数据信息,随着保存的INODES数量的增加,对内存需求增加,按每一百万INODES一G来粗略计算,JVM的XMX参数需要动态调整。 2 OS参数调优 操作系统,生产环境中都使用LINUX,以下就是指对LINUX ...
4.3 抽样(Sampling) 用基于MapReduce的程序来处理TB级的数据集,要花费的时间可能是数以小时计。仅仅是优化代码是很难达到良好的效果。 在开发和调试代码的时候,没有必要处理整个数据集。但如果在这种情况下要保证数据集能够被正确地处理,就需要用到抽样了。抽样是统计学中的一个方法 ...
首先看一个图: 注:右图在我们工作中经常用到 我们专注的web性能指标有那些? 1、页面加载时间 2、全部页面加载时间 0-2秒:用户体验最好,打分1002-8秒:用户可以容忍,从第2秒开始,每超过1秒减5分8-15秒:用户不能忍受,从第2秒开始,每超过 ...
主要有以下三种方式: 一,CPU时间 time.clock() 测量CPU时间,比较精准,通过比较程序运行前后的CPU时间差,得出程序运行的CPU时间。 二, 时钟时间 time.time() 测量时钟时间,也就是通常的类似掐表计时。 三,基准时间 timeit.timeit ...
数以百万计的图片存储分别在HDFS中。很不幸的是,这样做恰好碰上了HDFS和MapReduce的弱项,如下: ...