在此解决方案中,您将了解如何轻松使用MongoDB和Databricks构建基于ML的欺诈解决方案。该解决方案的关键特性包括通过集成外部数据源实现数据完整性、实时处理以确保及时检测欺诈、使用AI/ML建模来识别潜在的欺诈模式、实时监控以进行即时分析、模型可观察性以全面了解欺诈行为、灵活性、可扩展性和强大的安全措施。该系统旨在简化操作并促进应用程序开发与数据科学团队之间的协作。此外,它支持端到端CI/CD管道以确保系统和安全。
基于机器学习的欺诈解决方案适用于那些实时处理、AI/ML建模、模型可观察性、灵活性和团队间协作至关重要的行业。系统通过端到端CI/CD管道确保操作始终更新和安全。相关行业包括
从领域图中可以看出,在处理信用卡交易时存在三个实体:交易本身、参与交易的商家和付款人。由于这三个实体都很重要,并在我们的欺诈检测应用程序中一起访问,因此我们使用扩展的参考模式,并在单个文档中包括关于交易、商家和付款人的字段。
上述功能特性可以通过几个架构组件实现。这些包括
现在,让我们更详细地逐一分析以下这些架构组件。
实施全面的欺诈检测解决方案的第一步是从所有相关数据源聚合数据。如图1所示,采用事件驱动的联邦架构来收集和处理来自实时源(如生产者应用程序)、批处理遗留系统数据源(如SQL数据库)以及离线存储的历史训练数据集的数据。这种方法可以从交易摘要、客户人口统计、商户信息和其他相关来源等多个方面获取数据,确保数据完整性。
此外,所提出的事件驱动架构提供以下好处
演示中的生产应用程序是一个Python脚本,以预定义的速率(交易/秒,可配置)生成实时交易信息。
MongoDB Atlas是一个托管开发数据平台,提供了一些功能,使其成为卡欺诈交易分类的数据存储器的理想选择。它支持灵活的数据模型,可以处理各种类型的数据,具有高可扩展性以满足需求,提供高级安全功能以支持符合监管要求,实时数据处理以快速准确地进行欺诈检测,以及基于云的部署,以便将数据存储得更接近客户,并符合当地数据隐私法规。
MongoDB Spark Streaming Connector将Apache Spark和MongoDB集成。由Databricks托管的Apache Spark允许实时处理大量数据。Spark Connector将MongoDB数据转换为Spark数据帧,并支持实时Spark流。
MongoDB提供的App Services功能允许通过更改流和触发器实时处理数据。由于MongoDB Atlas能够存储和处理各种类型的数据,以及流能力和触发功能,因此它非常适合用于事件驱动架构。
此解决方案使用MongoDB和App Services丰富的连接器生态系统实时处理交易。通过调用Databricks MLflow框架托管的人工智能/机器学习模型的REST服务调用,使用App Service触发功能。
示例解决方案通过在用户设置集合中存储用户定义的支付限额和信息来管理基于规则的欺诈预防,如图所示。这包括每笔交易的最大美元限额、每天允许的交易次数以及其他与用户相关的详细信息。通过在调用昂贵的AI/ML模型之前根据这些规则过滤交易,降低了欺诈预防的整体成本。
Databricks是一个强大的AI/ML平台,用于开发识别欺诈交易的模型。Databricks的一个关键特性是支持实时分析。如上所述,实时分析是现代欺诈检测系统的一个关键特性。
数据工坊集成了MLFlow,这是一个强大的机器学习生命周期管理工具。MLFlow允许用户跟踪实验、重现结果和大规模部署模型,使管理复杂的机器学习工作流程变得更加容易。MLFlow提供模型可观察性,可以轻松跟踪模型性能和调试。这包括对模型指标、日志和其他相关数据的访问,可以用来识别问题并随着时间的推移提高模型的准确性。此外,这些功能还有助于设计使用人工智能/机器学习的现代欺诈检测系统。
所提出解决方案的功能性和非功能性特性包括