Mongo按指定字段分段分組聚合統計

本文轉載自查看原文 2021-01-08 11:02 615

現在有一批數據如下（表名detectOriginalData）：

{
    "_id" : "760c29a2720ead1681184dfbef0aaae4",
    "imgSavePath" : "/opt/temp/face/publicceaf441cf933bba310e4.JPG",
    "faceDetail" : {
        "face_token" : "760c29a2720ead1681184dfbef0aaae4",
        "location" : {
            "left" : 110.04,
            "top" : 244.39,
            "width" : 311.0,
            "height" : 263.0,
            "rotation" : -2
        }
    },
    "cdt" : ISODate("2020-12-25T10:53:43.647+08:00")
}

現在，我們要統計faceDetail.location.width，找出width處於300-400之間，每隔10分一段（也就是300-310、310-320...390-400共10組），之間的faceToken和imgSavePath都有哪些

最后實現的一種為：

db.detectOriginalData.aggregate([
        {$match: {"faceDetail.location.width": {$lte: 400, $gte: 300}}},
        {$project: {val: "$faceDetail.location.width", ftk: "$faceDetail.face_token", imgPath: "$imgSavePath"}},
        {$group: {
            "_id": {
                $subtract: [
                {$subtract: ["$val", 0]},
                {$mod: [{$subtract: ["$val", 0]}, 10]}
                ]
            },
            ftkList: {$push: "$ftk"},
            imgList: {$push: "$imgPath"},
            ftkCount: {$sum: 1}
        }},
        {$sort: {_id: -1}}
])

下面為開始用的繞了彎路的一種實現方式，可以忽略。。。

db.detectOriginalData.aggregate([
        {$match: {"faceDetail.location.width": {$lte: 400, $gte: 300}}},
        {$project: {val: "$faceDetail.location.width", ftk: "$faceDetail.face_token"}},
        {$lookup:{
            from:"detectOriginalData",
            localField:"ftk",
            foreignField: "_id",
            as: "img"}
        },
        {$project: {val: 1, ftk: 1, imgPath: "$img.imgSavePath"}},
        {$unwind: "$imgPath"},
        {$group: {
            "_id": {
                $subtract: [
                {$subtract: ["$val", 0]},
                {$mod: [{$subtract: ["$val", 0]}, 10]}
                ]
            },
            ftkList: {$push: "$ftk"},
            imgList: {$push: "$imgPath"},
            ftkCount: {$sum: 1}
        }},
        {$sort: {_id: -1}}
])

最后的結果如下（_id=320，代表width處於320-330之間的數據）：

************2021-01-19 新增，測試小伙伴提了個統計需求。。。。。。

先看統計數據關聯的另一張表（過濾詳情表detectFilterDetail），大概數據結構如下（只截取部分字段）：

{
    "_id" : ObjectId("5feaa27fd873663e8085507d"),
    "faceToken" : "2268048d7df15fa15652cc745261404e",
    "paramRecordId" : "5feaa273d873663e80855047",
    "paramBoolean" : {
        "ageMax" : true,
        "ageMin" : true,
        "qualityBlur" : true,
        "qualityOcclusionMouth" : true,
        "locationWidthMin" : false,
        "locationHeightMin" : false
    },
    "filterCount" : 2,
    "filterKey" : [ 
        "locationWidthMin", 
        "locationHeightMin"
    ],
    "cdt" : ISODate("2020-12-29T11:29:03.651+08:00")
}

現在是想要統計，detectFilterDetail表的detectFilterDetail.paramBoolean.qualityOcclusionMouse為true的分布，也就是和上一個統計一樣，統計每個分段里面，為true的數量有多少

琢磨了一會，大概實現sql如下：

db.detectFilterDetail.aggregate([
        {$match: {"paramRecordId": "5feaa273d873663e80855047", "paramBoolean.qualityOcclusionMouth": true}},
        {$project: {flag: "$paramBoolean.qualityOcclusionMouth", ftk: "$faceToken"}},
        {$lookup:{
            from:"detectOriginalData",
            localField:"ftk",
            foreignField: "_id",
            as: "f_ftk"}
        },
        {$project: {flag: 1, ftk: 1, val: "$f_ftk.faceDetail.quality.occlusion.mouth"}},
        {$unwind: "$val"},
        {$group: {
            "_id": {
                $subtract: [
                {$subtract: ["$val", 0]},
                {$mod: [{$subtract: ["$val", 0]}, 0.1]}
                ]
            },
            ftkList: {$push: "$ftk"},
            ftkCount: {$sum: 1}
        }},
        //{$group: {"_id": null, count: {$sum: 1}}}
        {$sort: {_id: -1}}
])

結果如下：

************2021-05-17 新增，有個其他場景統計需求，用這份數據測試一下。。。。。。

（過濾詳情表detectFilterDetail）統計需求就是：根據過濾參數個數filterCount字段分組，既要統計總數，又要統計其中某個具體參數占的數量（就是paramBoolean里面某個具體參數占的數量，這里選paramBoolean.qualityBlur來測試

）

實現sql如下：

db.detectFilterDetail.aggregate([
    {$match: {"cdt": {$lte: new Date("2021-05-11T18:35:04.071+08:00")}}},
    {$group: {
        _id: "$filterCount", 
        summmm: {$sum: 1}, 
        countBlur: {$sum: {
            $cond: { if: { $eq: [ "$paramBoolean.qualityBlur", false ] }, then: 1, else: 0 }
        }}
    }}
]);

結果如下：

其中，$cond還有一種更簡單的寫法：

$cond: [{$eq: ["$paramBoolean.qualityOcclusionNose", false]}, 1, 0 ]

PS：暫時做個記錄，后續再稍微解釋各個語句的大概作用

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 mongo 使用聚合合並字段 ES 24 - 通過 Elasticsearch 實現聚合檢索 (分組統計) awk 正則匹配指定字段次數統計 Elasticsearch Aggregation 多個字段分組統計 Java API實現 mysql分組統計按照字段排序方法(分組之后保留最新時間、最大id...) Mongo先分組再去重 mongo根據某個字段統計另外兩個字段總和及java實現——agregate group sum add python mongo存在插入不存在更新，同時指定如果不存在才插入的字段 Pandas 分組聚合 FastReport分組與聚合

Mongo按指定字段 分段分組 聚合統計

免責聲明！

Mongo按指定字段分段分組聚合統計