解包数组并分组
本页内容
引言
在本教程中,您将学习如何使用 PyMongo 构建聚合管道,对集合执行聚合操作,并通过完成并运行一个示例应用程序来打印结果。此聚合执行以下操作:
将数组字段展开为单独的文档
根据字段值匹配文档的子集
按共同的字段值对文档进行分组
向每个结果文档添加计算字段
聚合任务摘要
本教程演示了如何从客户订单数据中创建洞察。结果显示了价值超过 15 美元的订单产品列表,每个文档都包含每个产品的销售数量和总销售额。
本示例使用一个集合,orders
,其中包含描述产品订单的文档。由于每个订单包含多个产品,聚合的第一个步骤是将 products
数组展开为单个产品订单文档。
开始之前
在开始本教程之前,请完成以下内容:聚合模板应用的说明,用于设置一个可工作的Python应用程序。
设置应用程序后,通过以下代码将应用程序添加到orders
集合访问
orders_coll = agg_db["orders"]
删除任何现有数据,并按照以下代码将示例数据插入到orders
集合中
orders_coll.delete_many({}) order_data = [ { "order_id": 6363763262239, "products": [ { "prod_id": "abc12345", "name": "Asus Laptop", "price": 431, }, { "prod_id": "def45678", "name": "Karcher Hose Set", "price": 22, }, ] }, { "order_id": 1197372932325, "products": [ { "prod_id": "abc12345", "name": "Asus Laptop", "price": 429, } ] }, { "order_id": 9812343774839, "products": [ { "prod_id": "pqr88223", "name": "Morphy Richards Food Mixer", "price": 431, }, { "prod_id": "def45678", "name": "Karcher Hose Set", "price": 21, } ] }, { "order_id": 4433997244387, "products": [ { "prod_id": "def45678", "name": "Karcher Hose Set", "price": 23, }, { "prod_id": "jkl77336", "name": "Picky Pencil Sharpener", "price": 1, }, { "prod_id": "xyz11228", "name": "Russell Hobbs Chrome Kettle", "price": 16, } ] } ] orders_coll.insert_many(order_data)
教程
添加一个unwind阶段来展开产品订单数组
首先,添加一个$unwind 阶段,将products
数组中的条目分离成单独的文档
pipeline.append({ "$unwind": { "path": "$products" } })
添加一个匹配阶段,用于匹配价格超过$15的产品
接下来,添加一个 $match 阶段,匹配具有products.price
值大于15
的产品
pipeline.append({ "$match": { "products.price": { "$gt": 15 } } })
为按产品类型分组添加一个分组阶段
为按 $group 阶段添加一个按 prod_id
字段值的分组操作。在此阶段中,添加以下字段到结果文档中的聚合操作
product
:产品名称total_value
:产品所有销售的总价值quantity
:产品的订单数量
pipeline.append({ "$group": { "_id": "$products.prod_id", "product": {"$first": "$products.name"}, "total_value": {"$sum": "$products.price"}, "quantity": {"$sum": 1} } })
添加一个
添加一个 $set 阶段,从在 $group
阶段设置的 _id
字段的值中重新创建 product_id
字段
pipeline.append({ "$set": { "product_id": "$_id" } })
添加一个
最后,添加一个 $unset 阶段。$unset 阶段会从结果文档中移除 _id
字段
pipeline.append({"$unset": ["_id"]})
解读结果
聚合操作返回了以下2020年客户订单的摘要
{ 'product': 'Asus Laptop', 'total_value': 860, 'quantity': 2, 'product_id': 'abc12345' } { 'product': 'Morphy Richards Food Mixer', 'total_value': 431, 'quantity': 1, 'product_id': 'pqr88223' } { 'product': 'Russell Hobbs Chrome Kettle', 'total_value': 16, 'quantity': 1, 'product_id': 'xyz11228' } { 'product': 'Karcher Hose Set', 'total_value': 66, 'quantity': 3, 'product_id': 'def45678' }
结果文档包含了关于价值超过15美元的产品订单的总价值和数量详情
要查看本教程的完整代码,请参阅GitHub上的完成解包数组应用。