标签【mapreduce】 - 码上欢乐

HBase Java简单示例

)。基于Hadoop的mapreduce + Hbase存储，非常适合处理大数据。 Hbase基本使用示例 ...

MapReduce任务参数调优(转)

http://blog.javachen.com/2014/06/24/tuning-in-mapreduce/ 本文主要记录Hadoop 2.x版本中MapReduce参数调优，不涉及Yarn的调优。 Hadoop的默认配置文件（以cdh5.0.1为例 ...

一起学Hadoop——使用IDEA编写第一个MapReduce程序(Java和Python)

上一篇我们学习了MapReduce的原理，今天我们使用代码来加深对MapReduce原理的理解。 wordcount是Hadoop入门的经典例子，我们也不能免俗，也使用这个例子作为学习Hadoop的第一个程序。本文将介绍使用java和python编写第一个MapReduce程序。本文使用 ...

Hadoop学习笔记（1）:WordCount程序的实现与总结

开篇语：这几天开始学习Hadoop，花费了整整一天终于把伪分布式给搭好了，激动之情无法言表······ 搭好环境之后，按着书本的代码，实现了这个被誉为Hadoop中的HelloWorld的程序- ...

Hadoop Pig简介、安装、试用

相比Java的MapReduce api，Pig为大型数据集的处理提供了更高层次的抽象，与MapReduce相比，Pig提供了更丰富的数据结构，一般都是多值和嵌套的数据结构。Pig还提供了一套更强大的数据变换操作，包括在MapReduce中被忽视的连接Join操作。 Hadoop版本 ...

hadoop的NullWritable

NullWritable是Writable的一个特殊类，实现方法为空实现，不从数据流中读数据，也不写入数据，只充当占位符，如在MapReduce中，如果你不需要使用键或值，你就可以将键或值声明为NullWritable,NullWritable是一个不可变的单实例类型。比如，我设置map的输出 ...

MapReduce二次排序

默认情况下，Map输出的结果会对Key进行默认的排序，但是有时候需要对Key排序的同时还需要对Value进行排序，这时候就要用到二次排序了。下面我们来说说二次排序 1、二次排序原理我们把 ...

eclipse中集成hadoop插件

1.下载并安装eclipse2.https://github.com/winghc/hadoop2x-eclipse-plugin3.下载插件到eclipse的插件目录 4.配置h ...

MapReduce实现的Join

MapReduce Join 对两份数据data1和data2进行关键词连接是一个很通用的问题，如果数据量比较小，可以在内存中完成连接。如果数据量比较大，在内存进行连接操会发生OOM。mapreduce join可以用来解决大数据的连接。 1 思路 1.1 reduce join ...

mapreduce on yarn简单内存分配解释

关于mapreduce程序运行在yarn上时内存的分配一直是一个让我蒙圈的事情，单独查任何一个资料都不能很好的理解透彻。于是，最近查了大量的资料，综合各种解释，终于理解到了一个比较清晰的程度，在这里将理解的东西做一个简单的记录，以备忘却。首先，先将关于mapreduce和yarn关于内存分配的参数 ...

相关标签