背景

MapReduce是個非常靈活和強大的數據聚合工具。它的好處是可以把一個聚合任務分解為多個小的任務，分配到多服務器上並行處理。

MongoDB也提供了MapReduce，當然查詢語肯定是JavaScript。MongoDB中的MapReduce主要有以下幾階段：

1. Map:把一個操作Map到集合中的每一個文檔

2. Shuffle: 根據Key分組對文檔，並且為每個不同的Key生成一系列(>=1個)的值表(List of values)。

3. Reduce: 處理值表中的元素，直到值表中只有一個元素。然后將值表返回到Shuffle過程，循環處理，直到每個Key只對應一個值表，並且此值表中只有一個元素，這就是MR的結果。

4. Finalize：此步驟不是必須的。在得到MR最終結果后，再進行一些數據“修剪”性質的處理。

MongoDB中使用emit函數向MapReduce提供Key/Value對。

Reduce函數接受兩個參數：Key,emits. Key即為emit函數中的Key。 emits是一個數組，它的元素就是emit函數提供的Value。

Reduce函數的返回結果必須要能被Map或者Reduce重復使用，所以返回結果必須與emits中元素結構一致。

Map或者Reduce函數中的this關鍵字，代表當前被Mapping文檔。

實例

測試數據: 這個集合是三個用戶購買的產品和產品價格的數據。

CodeCodefor(var i=0;i<1000;i++){ var rID=Math.floor(Math.random()*10); var priceparseFloat((Math.random()*10).toFixed(2)); if(rID<4){ db.test.insert({"user":"Joe","sku":rID,"price":price}); } else if(rID>=4 && rID<7) { db.test.insert({"user":"Josh","sku":rID,"price":price}); } else { db.test.insert({"user":"Ken","sku":rID,"price":price}); } }

1. 每個用戶各購買了多少個產品？( <單一key做mr< strong> )

Code//SQL實現
select user,count(sku) from test
group by user

//MapReduce實現
map=function (){
 emit(this.user,{count:1})
}

reduce=function (key,values){
 var cnt=0;   
values.forEach(function(val){ cnt+=val.count;});  
return {"count":cnt};
}
//MR結果存到集合mr1
db.test.mapReduce(map,reduce,{out:"mr1"})
//查看MR之后結果
> db.mr1.find()
{ "_id" : "Joe", "value" : { "count" : 416 } }
{ "_id" : "Josh", "value" : { "count" : 287 } }
{ "_id" : "Ken", "value" : { "count" : 297 } }

2. 每個用戶不同的產品購買了多少個？(復合Key做MR)

Code//SQL實現
select user,sku,count(*) from test
group by user,sku

//MapReduce實現
map=function (){
 emit({user:this.user,sku:this.sku},{count:1})
}

reduce=function (key,values){
 var cnt=0;   
values.forEach(function(val){ cnt+=val.count;});  
return {"count":cnt};
}

db.test.mapReduce(map,reduce,{out:"mr2"})
> db.mr2.find()
{ "_id" : { "user" : "Joe", "sku" : 0 }, "value" : { "count" : 103 } }
{ "_id" : { "user" : "Joe", "sku" : 1 }, "value" : { "count" : 106 } }
{ "_id" : { "user" : "Joe", "sku" : 2 }, "value" : { "count" : 102 } }
{ "_id" : { "user" : "Joe", "sku" : 3 }, "value" : { "count" : 105 } }
{ "_id" : { "user" : "Josh", "sku" : 4 }, "value" : { "count" : 87 } }
{ "_id" : { "user" : "Josh", "sku" : 5 }, "value" : { "count" : 107 } }
{ "_id" : { "user" : "Josh", "sku" : 6 }, "value" : { "count" : 93 } }
{ "_id" : { "user" : "Ken", "sku" : 7 }, "value" : { "count" : 98 } }
{ "_id" : { "user" : "Ken", "sku" : 8 }, "value" : { "count" : 83 } }
{ "_id" : { "user" : "Ken", "sku" : 9 }, "value" : { "count" : 116 } }

3. 每個用戶購買的產品數量，總金額是多少？(復合Reduce結果處理)

Code//SQL實現
select user,count(sku),sum(price) from test
group by user

//MapReduce實現
map=function (){
  emit(this.user,{amount:this.price,count:1})
}

reduce=function (key,values){
 var res={amount:0,count:0}
values.forEach(function(val){ 
    res.amount+=val.amount;
    res.count+=val.count
});  
return res;
}

db.test.mapReduce(map,reduce,{out:"mr3"})

> db.mr3.find()
{ "_id" : "Joe", "value" : { "amount" : 2053.8899999999994, "count" : 395 } }
{ "_id" : "Josh", "value" : { "amount" : 1409.2600000000002, "count" : 292 } }
{ "_id" : "Ken", "value" : { "amount" : 1547.7700000000002, "count" : 313 } }

4. 在3中返回的amount的float精度需要改成兩位小數，還需要得到商品的平均價格。(使用Finalize處理reduce結果集)

Code//SQL實現
select user,cast(sum(price) as   decimal(10,   2)) as amount,count(sku) as [count],
cast((sum(price)/count(sku))  as decimal(10,2)) as avgPrice
from test
group by user
//MapReduce實現
map=function (){
  emit(this.user,{amount:this.price,count:1,avgPrice:0})
}

reduce=function (key,values){
 var res={amount:0,count:0,avgPrice:0}
values.forEach(function(val){ 
    res.amount+=val.amount;
    res.count+=val.count
});  
return res;
}

finalizeFun=function (key,reduceResult){
 reduceResult.amount=(reduceResult.amount).toFixed(2);
 reduceResult.avgPrice=(reduceResult.amount/reduceResult.count).toFixed(2);
 return reduceResult;}

 db.test.mapReduce(map,reduce,{out:"mr4",finalize:finalizeFun})
> db.mr4.find()
{ "_id" : "Joe", "value" : { "amount" : "2053.89", "count" : 395, "avgPrice" : "5.20" } }
{ "_id" : "Josh", "value" : { "amount" : "1409.26", "count" : 292, "avgPrice" : "4.83" } }
{ "_id" : "Ken", "value" : { "amount" : "1547.77", "count" : 313, "avgPrice" : "4.94" } }

5. 統計單價大於6的SKU,每個用戶的購買數量.(篩選數據子集做MR)

這個比較簡單了,只需要將1.中調用MR時加上篩選查詢即可,其它不變.

Codedb.test.mapReduce(map,reduce,{query:{price:{"$gt":6}},out:"mr5"})

總結

MongoDB中的MR工具非常強大,文中的例子只是基礎實例.結合Sharding后,多服務器並行做數據集合處理,才能真正顯現其能力.

如果后續有時間,希望能總結和分享更多關於MongoDB,關於SQL Server的東西.

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 【MapReduce】一、MapReduce簡介與實例 MapReduce實例 MapReduce(一) mapreduce基礎入門 mongodb mapreduce小試 MapReduce實例(數據去重) MapReduce程序實例（python） MapReduce編程實例 Mapreduce實例——去重 Mapreduce實例——Map端join Mapreduce實例——二次排序