文档菜单
文档首页
/ / /
PyMongo
/ /

解包数组并分组

本页内容

  • 简介
  • 聚合任务摘要
  • 开始之前
  • 教程
  • 添加一个展开阶段以解包产品订单数组
  • 添加一个匹配阶段以选择价格超过15美元的产品
  • 添加一个分组阶段以按产品类型分组
  • 添加一个设置阶段以显示产品ID
  • 添加一个未设置阶段以删除不需要的字段
  • 运行聚合管道
  • 解读结果

在本教程中,您将学习如何使用 PyMongo 构建聚合管道,对集合执行聚合操作,并通过完成并运行一个示例应用程序来打印结果。此聚合执行以下操作:

  • 将数组字段展开为单独的文档

  • 根据字段值匹配文档的子集

  • 按共同的字段值对文档进行分组

  • 向每个结果文档添加计算字段

本教程演示了如何从客户订单数据中创建洞察。结果显示了价值超过 15 美元的订单产品列表,每个文档都包含每个产品的销售数量和总销售额。

本示例使用一个集合,orders,其中包含描述产品订单的文档。由于每个订单包含多个产品,聚合的第一个步骤是将 products 数组展开为单个产品订单文档。

在开始本教程之前,请完成以下内容:聚合模板应用的说明,用于设置一个可工作的Python应用程序。

设置应用程序后,通过以下代码将应用程序添加到orders集合访问

orders_coll = agg_db["orders"]

删除任何现有数据,并按照以下代码将示例数据插入到orders集合中

orders_coll.delete_many({})
order_data = [
{
"order_id": 6363763262239,
"products": [
{
"prod_id": "abc12345",
"name": "Asus Laptop",
"price": 431,
},
{
"prod_id": "def45678",
"name": "Karcher Hose Set",
"price": 22,
},
]
},
{
"order_id": 1197372932325,
"products": [
{
"prod_id": "abc12345",
"name": "Asus Laptop",
"price": 429,
}
]
},
{
"order_id": 9812343774839,
"products": [
{
"prod_id": "pqr88223",
"name": "Morphy Richards Food Mixer",
"price": 431,
},
{
"prod_id": "def45678",
"name": "Karcher Hose Set",
"price": 21,
}
]
},
{
"order_id": 4433997244387,
"products": [
{
"prod_id": "def45678",
"name": "Karcher Hose Set",
"price": 23,
},
{
"prod_id": "jkl77336",
"name": "Picky Pencil Sharpener",
"price": 1,
},
{
"prod_id": "xyz11228",
"name": "Russell Hobbs Chrome Kettle",
"price": 16,
}
]
}
]
orders_coll.insert_many(order_data)
1

首先,添加一个$unwind 阶段,将products数组中的条目分离成单独的文档

pipeline.append({
"$unwind": {
"path": "$products"
}
})
2

接下来,添加一个 $match 阶段,匹配具有products.price值大于15的产品

pipeline.append({
"$match": {
"products.price": {
"$gt": 15
}
}
})
3

为按 $group 阶段添加一个按 prod_id 字段值的分组操作。在此阶段中,添加以下字段到结果文档中的聚合操作

  • product:产品名称

  • total_value:产品所有销售的总价值

  • quantity:产品的订单数量

pipeline.append({
"$group": {
"_id": "$products.prod_id",
"product": {"$first": "$products.name"},
"total_value": {"$sum": "$products.price"},
"quantity": {"$sum": 1}
}
})
4

添加一个 $set 阶段,从在 $group 阶段设置的 _id 字段的值中重新创建 product_id 字段

pipeline.append({
"$set": {
"product_id": "$_id"
}
})
5

最后,添加一个 $unset 阶段。$unset 阶段会从结果文档中移除 _id 字段

pipeline.append({"$unset": ["_id"]})
6

将以下代码添加到您的应用程序末尾,以对 orders 集合进行聚合操作

aggregation_result = orders_coll.aggregate(pipeline)

最后,在您的 shell 中运行以下命令以启动您的应用程序

python3 agg_tutorial.py
7

聚合操作返回了以下2020年客户订单的摘要

{
'product': 'Asus Laptop',
'total_value': 860,
'quantity': 2,
'product_id': 'abc12345'
}
{
'product': 'Morphy Richards Food Mixer',
'total_value': 431,
'quantity': 1,
'product_id': 'pqr88223'
}
{
'product': 'Russell Hobbs Chrome Kettle',
'total_value': 16,
'quantity': 1,
'product_id': 'xyz11228'
}
{
'product': 'Karcher Hose Set',
'total_value': 66,
'quantity': 3,
'product_id': 'def45678'
}

结果文档包含了关于价值超过15美元的产品订单的总价值和数量详情

要查看本教程的完整代码,请参阅GitHub上的完成解包数组应用

返回

分组和总计