mongodb MongoDB 聚合 group

本文轉載自查看原文 2016-08-11 14:25 17727 mongodb MongoDB 聚合 group/ MongoDB

MongoDB 聚合

MongoDB中聚合(aggregate)主要用於處理數據(諸如統計平均值,求和等)，並返回計算后的數據結果。有點類似sql語句中的 count(*)。

基本語法為：db.collection.aggregate( [ <stage1>, <stage2>, ... ] )

現在在mycol集合中有以下數據：

{ "_id" : 1, "name" : "tom", "sex" : "男", "score" : 100, "age" : 34 }
{ "_id" : 2, "name" : "jeke", "sex" : "男", "score" : 90, "age" : 24 }
{ "_id" : 3, "name" : "kite", "sex" : "女", "score" : 40, "age" : 36 }
{ "_id" : 4, "name" : "herry", "sex" : "男", "score" : 90, "age" : 56 }
{ "_id" : 5, "name" : "marry", "sex" : "女", "score" : 70, "age" : 18 }
{ "_id" : 6, "name" : "john", "sex" : "男", "score" : 100, "age" : 31 }

1、$sum 計算總和。

　　Sql: select sex,count(*) from mycol group by sex

　　MongoDb: db.mycol.aggregate([{$group: {_id: '$sex', personCount: {$sum: 1}}}])

　　Sql: select sex,sum(score) totalScore from mycol group by sex

　　MongoDb: db.mycol.aggregate([{$group: {_id: '$sex', totalScore: {$sum: '$score'}}}])

2、$avg 計算平均值

　　Sql: select sex,avg(score) avgScore from mycol group by sex

　　Mongodb: db.mycol.aggregate([{$group: {_id: '$sex', avgScore: {$avg: '$score'}}}])

3、$max 獲取集合中所有文檔對應值得最大值。

　　Sql: select sex,max(score) maxScore from mycol group by sex

　　Mongodb: db.mycol.aggregate([{$group: {_id: '$sex', maxScore : {$max: '$score'}}}])

4、$min 獲取集合中所有文檔對應值得最小值。

　　Sql: select sex,min(score) minScore from mycol group by sex

　　Mongodb: db.mycol.aggregate([{$group: {_id: '$sex', minScore : {$min: '$score'}}}])

5、$push 把文檔中某一列對應的所有數據插入值到一個數組中。

　　Mongodb: db.mycol.aggregate([{$group: {_id: '$sex', scores : {$push: '$score'}}}])

6、$addToSet 把文檔中某一列對應的所有數據插入值到一個數組中,去掉重復的

　　db.mycol.aggregate([{$group: {_id: '$sex', scores : {$addToSet: '$score'}}}])

7、 $first 根據資源文檔的排序獲取第一個文檔數據。

　　 db.mycol.aggregate([{$group: {_id: '$sex', firstPerson : {$first: '$name'}}}])

8、 $last 根據資源文檔的排序獲取最后一個文檔數據。

　　 db.mycol.aggregate([{$group: {_id: '$sex', lastPerson : {$last: '$name'}}}])

9、全部統計 null

　　db.mycol.aggregate([{$group:{_id:null,totalScore:{$push:'$score'}}}])

例子

　　現在在t2集合中有以下數據：

　　{ "country" : "china", "province" : "sh", "userid" : "a" }
　　{ "country" : "china", "province" : "sh", "userid" : "b" }
　　{ "country" : "china", "province" : "sh", "userid" : "a" }
　　{ "country" : "china", "province" : "sh", "userid" : "c" }
　　{ "country" : "china", "province" : "bj", "userid" : "da" }
　　{ "country" : "china", "province" : "bj", "userid" : "fa" }

　　需求是統計出每個country/province下的userid的數量（同一個userid只統計一次）

　　過程如下。

　　首先試着這樣來統計：

　　db.t2.aggregate([ { $group: {"_id": { "country" : "$country", "prov": "$province"} , "number":{$sum:1}} } ])

　　結果是錯誤的：

　　原因是，這樣來統計不能區分userid相同的情況（上面的數據中sh有兩個 userid = a)

　　為了解決這個問題，首先執行一個group，其id 是 country, province, userid三個field：

　　db.t2.aggregate([ { $group: {"_id": { "country" : "$country", "province": "$province" , "uid" : "$userid" } } } ])

　　可以看出，這步的目的是把相同的userid只剩下一個。

　　然后第二步，再第一步的結果之上再執行統計：

　　db.t2.aggregate([
　　{ $group: {"_id": { "country" : "$country", "province": "$province" , "uid" : "$userid" } } } ,
　　{ $group: {"_id": { "country" : "$_id.country", "province": "$_id.province" }, count : { $sum : 1 } } }
　　])

　　這回就對了

　　加入一個$project操作符，把_id去掉

　　db.t2.aggregate([ { $group: {"_id": { "country" : "$country", "province": "$province" , "uid" : "$userid" } } } ,
　　{ $group: {"_id": { "country" : "$_id.country", "province": "$_id.province" }, count: { $sum : 1 } } },
　　{ $project : {"_id": 0, "country" : "$_id.country", "province" : "$_id.province", "count" : 1}}
　　])

　　最終結果如下：