公告推出MongoDB 8.0,史上最快的MongoDB!了解更多 >>

连接器

MongoDB Connector for Apache Spark

通过结合Apache Spark(业界领先的数据处理引擎)和MongoDB(业界增长最快的数据库),构建新的复杂、实时分析类。MongoDB Connector for Apache Spark现在通常可用,经过认证并支持生产使用。MongoDB Connector for Apache Spark 是通用的,已认证并支持当前的生产使用。
立即下载

立即获取洞察力

我们生活在一个“大数据”的世界。但真正有价值的不只是数据本身,而是它所能产生的洞察力。组织能够多快地解锁并采取行动来利用这种洞察力已成为竞争优势的主要来源。在运营系统中收集数据,然后依赖于夜间批处理提取、转换、加载(ETL)过程来更新企业数据仓库(EDW)的做法已不再足够。

An illustration of an increasing bar graph and rocketship
A diagram outlining the analytics application facilitated by the Apache Spark Connector

释放Apache Spark的强大功能

MongoDB Connector for Apache Spark暴露了Spark的所有库,包括Scala、Java、Python和R。MongoDB数据被物化为DataFrames和Datasets,以进行机器学习、图、流和SQL API的分析。

利用MongoDB的强大功能

Apache Spark的MongoDB连接器可以利用MongoDB的聚合管道和丰富的辅助索引来提取、过滤和处理它所需的数据——例如,分析位于特定地理区域的全部客户。传统的NoSQL数据存储不提供辅助索引或数据库内聚合。在这种情况下,Spark需要基于简单的主键提取所有数据,即使只需要其中一小部分数据用于Spark处理。Apache Spark的MongoDB连接器将弹性分布式数据集(RDD)与源MongoDB节点协同放置,以最小化跨集群的数据移动并降低延迟。
An illustration of an aggregation pipeline with data flowing

MongoDB和Apache Spark:为数据科学团队提供支持

虽然MongoDB本身提供丰富的实时分析功能,但还有一些用例需要集成Apache Spark引擎来扩展MongoDB管理的运营数据处理。这使得用户能够在MongoDB支持的实时业务流程中实现Spark生成的结果。

下一步

准备好开始了吗?

获取Apache Spark的MongoDB连接器。
现在试用联系销售
Database illustration