标签【Hadoop1.x】 - 码上欢乐

MapReduce的原理及执行过程

MapReduce简介 MapReduce是一种分布式计算模型，是Google提出的，主要用于搜索领域，解决海量数据的计算问题。 MR有两个阶段组成：Map和Reduce，用户只需实现ma ...

shuffle过程分析

shuffle的过程分析 shuffle阶段其实就是之前《MapReduce的原理及执行过程》中的步骤2.1。多个map任务的输出，按照不同的分区，通过网络copy到不同的reduce节点上。 ...

Partitioner

使用自定义partitioner来处理手机上网日志信息为什么要使用分区？　　1.根据业务需要，产生多个输出文件　　2.多个reduce任务在运行，提高整体job的运行效率将 ...

Combiner

Combiner编程(1.5可选步骤，视情况而定！) 每一个map可能会产生大量的输出，combiner的作用就是在map端对输出先做一次合并，以减少传输到reducer的数据量。 co ...

1、在hadoop中所有的key/value都必须实现Writable接口，有两个方法，分别用于读（反序列化）和写（序列化）操作。参考代码：简单继承Wr ...

场景合并小文件，存放到HDFS上。例如，当需要分析来自许多服务器的Apache日志时，各个日志文件可能比较小，然而Hadoop更合适处理大文件，效率会更高，此时就需要合并分散的文件。如果先将所有 ...

注意标题：Map Task数目的确定和Reduce Task数目的指定————自然得到结论，前者是后者决定的，后者是人为指定的。查看源码可以很容易看懂 1、MapReduce作业中Map Task数 ...

出现的错误截图：此时Eclipse使用的jdk1.8，将编译环境改成jdk1.7就行了，解决。没问题了。下面观点是参考如下网址，未经验证。参考：http://blog.c ...