標簽【mapreduce】 - 碼上歡樂

)。基於Hadoop的mapreduce + Hbase存儲，非常適合處理大數據。 Hbase基本使用示例 ...

http://blog.javachen.com/2014/06/24/tuning-in-mapreduce/ 本文主要記錄Hadoop 2.x版本中MapReduce參數調優，不涉及Yarn的調優。 Hadoop的默認配置文件（以cdh5.0.1為例 ...

一起學Hadoop——使用IDEA編寫第一個MapReduce程序(Java和Python)

上一篇我們學習了MapReduce的原理，今天我們使用代碼來加深對MapReduce原理的理解。 wordcount是Hadoop入門的經典例子，我們也不能免俗，也使用這個例子作為學習Hadoop的第一個程序。本文將介紹使用java和python編寫第一個MapReduce程序。本文使用 ...

Hadoop學習筆記（1）:WordCount程序的實現與總結

開篇語：這幾天開始學習Hadoop，花費了整整一天終於把偽分布式給搭好了，激動之情無法言表······ 搭好環境之后，按着書本的代碼，實現了這個被譽為Hadoop中的HelloWorld的程序- ...

Hadoop Pig簡介、安裝、試用

相比Java的MapReduce api，Pig為大型數據集的處理提供了更高層次的抽象，與MapReduce相比，Pig提供了更豐富的數據結構，一般都是多值和嵌套的數據結構。Pig還提供了一套更強大的數據變換操作，包括在MapReduce中被忽視的連接Join操作。 Hadoop版本 ...

hadoop的NullWritable

NullWritable是Writable的一個特殊類，實現方法為空實現，不從數據流中讀數據，也不寫入數據，只充當占位符，如在MapReduce中，如果你不需要使用鍵或值，你就可以將鍵或值聲明為NullWritable,NullWritable是一個不可變的單實例類型。比如，我設置map的輸出 ...

MapReduce二次排序

默認情況下，Map輸出的結果會對Key進行默認的排序，但是有時候需要對Key排序的同時還需要對Value進行排序，這時候就要用到二次排序了。下面我們來說說二次排序 1、二次排序原理我們把 ...

eclipse中集成hadoop插件

1.下載並安裝eclipse2.https://github.com/winghc/hadoop2x-eclipse-plugin3.下載插件到eclipse的插件目錄 4.配置h ...

MapReduce實現的Join

MapReduce Join 對兩份數據data1和data2進行關鍵詞連接是一個很通用的問題，如果數據量比較小，可以在內存中完成連接。如果數據量比較大，在內存進行連接操會發生OOM。mapreduce join可以用來解決大數據的連接。 1 思路 1.1 reduce join ...

mapreduce on yarn簡單內存分配解釋

關於mapreduce程序運行在yarn上時內存的分配一直是一個讓我蒙圈的事情，單獨查任何一個資料都不能很好的理解透徹。於是，最近查了大量的資料，綜合各種解釋，終於理解到了一個比較清晰的程度，在這里將理解的東西做一個簡單的記錄，以備忘卻。首先，先將關於mapreduce和yarn關於內存分配的參數 ...

相關標簽