Apache Spark是Apache软件基金会历史上增长最快的开源大数据项目之一。凭借其内存导向型架构、灵活的处理库和易用性,Spark已成为实时分析领域的领先分布式计算框架。
结合领先的分析处理引擎和增长最快的数据库,使组织能够实现复杂、实时的分析。Spark作业可以直接在由MongoDB管理的运营数据上执行,无需ETL过程的时间和费用。然后MongoDB可以有效地索引并将分析结果返回到实时运营流程中。
本白皮书讨论了MongoDB和Apache Spark提供的分析能力,并概述了何时以及如何将它们组合成一个实时分析引擎。文章最后提供了示例用例。