$stdDevSamp (聚合)
定义
已更改在版本5.0.
计算输入值的样本标准差。如果这些值代表一个数据集的样本,可以通过这个样本来推断整个数据集。$stdDevSamp 会忽略非数值类型。
如果这些值代表整个数据集或你不想对更大的数据集进行推断,请使用$stdDevPop。
$stdDevSamp 在以下阶段可用
$setWindowFields(从 MongoDB 5.0 版本开始可用)
语法
当在 $bucket、$bucketAuto、$group 和 $setWindowFields 阶段使用时,$stdDevSamp 的语法如下
{ $stdDevSamp: <expression> }
在其他支持的阶段使用时,$stdDevSamp 有两种语法之一
$stdDevSamp以一个指定的表达式作为其操作数{ $stdDevSamp: <expression> } $stdDevSamp以一个指定表达式的列表作为其操作数{ $stdDevSamp: [ <expression1>, <expression2> ... ] }
$stdDevSamp 的参数可以是任何 表达式,只要它解析为一个数组。
有关表达式的更多信息,请参阅 表达式运算符。
行为
结果类型
$stdDevSamp 返回输入值的样本标准差,类型为 double。
非数值值
$stdDevSamp 会忽略非数值值。如果求和的所有操作数都是非数值,$stdDevSamp 返回 null。
单个值
如果样本仅包含一个数值,则 $stdDevSamp 返回 null。
数组操作数
在 $group 和 $setWindowFields 阶段,如果表达式解析为数组,则 $stdDevSamp 将操作数视为非数值。
在其他支持的阶段
如果操作数为单个表达式,并且该表达式解析为数组,则
$stdDevSamp会遍历到数组中,以操作数组中的数值元素,并返回单个值。如果操作数为表达式列表,并且其中任何表达式解析为数组,则
$stdDevSamp不会遍历到数组中,而是将数组视为非数值。
窗口值
在$setWindowFields阶段中处理具有值的窗口:
忽略窗口中的非数值、
null值和缺失字段。如果窗口为空,则返回
null。如果窗口包含
NaN值,则返回null。如果窗口包含
Infinity值,则返回null。如果上述任何一点都不适用,则返回一个
double值。
示例
在$group阶段中使用
包含以下字段的集合users:
{_id: 0, username: "user0", age: 20} {_id: 1, username: "user1", age: 42} {_id: 2, username: "user2", age: 28} ...
要计算用户样本的标准差,首先使用聚合操作中的$sample管道来采样100个用户,然后使用$stdDevSamp计算采样用户的标准差。
db.users.aggregate( [ { $sample: { size: 100 } }, { $group: { _id: null, ageStdDev: { $stdDevSamp: "$age" } } } ] )
操作返回的结果如下
{ "_id" : null, "ageStdDev" : 7.811258386185771 }
在$setWindowFields阶段中使用
新增在版本5.0.
创建一个包含加利福尼亚州(CA)和华盛顿州(WA)的糕点销售的 cakeSales 集合
db.cakeSales.insertMany( [ { _id: 0, type: "chocolate", orderDate: new Date("2020-05-18T14:10:30Z"), state: "CA", price: 13, quantity: 120 }, { _id: 1, type: "chocolate", orderDate: new Date("2021-03-20T11:30:05Z"), state: "WA", price: 14, quantity: 140 }, { _id: 2, type: "vanilla", orderDate: new Date("2021-01-11T06:31:15Z"), state: "CA", price: 12, quantity: 145 }, { _id: 3, type: "vanilla", orderDate: new Date("2020-02-08T13:13:23Z"), state: "WA", price: 13, quantity: 104 }, { _id: 4, type: "strawberry", orderDate: new Date("2019-05-18T16:09:01Z"), state: "CA", price: 41, quantity: 162 }, { _id: 5, type: "strawberry", orderDate: new Date("2019-01-08T06:12:03Z"), state: "WA", price: 43, quantity: 134 } ] )
此示例在 $stdDevSamp 中使用 $setWindowFields 阶段以输出每个 state 的糕点销售 quantity 值的样本标准差
db.cakeSales.aggregate( [ { $setWindowFields: { partitionBy: "$state", sortBy: { orderDate: 1 }, output: { stdDevSampQuantityForState: { $stdDevSamp: "$quantity", window: { documents: [ "unbounded", "current" ] } } } } } ] )
在示例中
partitionBy: "$state"根据state对集合中的文档进行 分区。有CA和WA的分区。sortBy: { orderDate: 1 }对每个分区中的文档按orderDate进行 排序(升序1),因此最早的orderDate最先。
output将stdDevSampQuantityForState字段设置为使用$stdDevSamp运行在 文档 窗口中计算的quantity值的样本标准差。此 窗口 包含从
unbounded下限到输出中current文档的文档。这意味着$stdDevSamp返回从分区开始到当前文档之间的quantity值的样本标准差。
在此输出中,CA 和 WA 的样本标准差 quantity 值显示在 stdDevSampQuantityForState 字段中
{ "_id" : 4, "type" : "strawberry", "orderDate" : ISODate("2019-05-18T16:09:01Z"), "state" : "CA", "price" : 41, "quantity" : 162, "stdDevSampQuantityForState" : null } { "_id" : 0, "type" : "chocolate", "orderDate" : ISODate("2020-05-18T14:10:30Z"), "state" : "CA", "price" : 13, "quantity" : 120, "stdDevSampQuantityForState" : 29.698484809834994 } { "_id" : 2, "type" : "vanilla", "orderDate" : ISODate("2021-01-11T06:31:15Z"), "state" : "CA", "price" : 12, "quantity" : 145, "stdDevSampQuantityForState" : 21.1266025033211 } { "_id" : 5, "type" : "strawberry", "orderDate" : ISODate("2019-01-08T06:12:03Z"), "state" : "WA", "price" : 43, "quantity" : 134, "stdDevSampQuantityForState" : null } { "_id" : 3, "type" : "vanilla", "orderDate" : ISODate("2020-02-08T13:13:23Z"), "state" : "WA", "price" : 13, "quantity" : 104, "stdDevSampQuantityForState" : 21.213203435596427 } { "_id" : 1, "type" : "chocolate", "orderDate" : ISODate("2021-03-20T11:30:05Z"), "state" : "WA", "price" : 14, "quantity" : 140, "stdDevSampQuantityForState" : 19.28730152198591 }