诺和诺德于1923年在丹麦成立,如今已成为全球领先的医疗保健公司之一。该公司基于其在糖尿病治疗方面的传统,其使命是通过开创科学突破、扩大其药物的可及性以及努力预防——最终治愈——疾病来推动变革。
诺和诺德在80个国家拥有超过64,000名员工。其产品在170个国家销售,2023财年创收达2320亿丹麦克朗(约合335亿美元)。
诺和诺德内容数字化负责人Louise Lind Skov解释说:“我们今天的治疗正在帮助数百万患有糖尿病、肥胖和罕见血液和内分泌疾病的人。我们生产了世界上50%的胰岛素,制造了超过6亿支胰岛素笔,超过3600万人正在使用我们的糖尿病护理产品。从我们的实验室到我们的工厂,我们正在发现和发展创新的生物药物,并使它们在全球范围内惠及患者。”
通过利用亚马逊Bedrock和MongoDB Atlas的生成式AI(gen AI),诺和诺德正在显著加快新药获得批准和交付给患者的过程。
Louise Lind Skov,诺和诺德
图1:临床试验报告示例
斯考夫在解释制作临床研究报告所需的时间和精力时说:“一份CSR通常需要大约12周的时间来编制,涉及统计学家、科学家和技术作者的多学科团队。每天的延误意味着患者无法获得他们需要的治疗,公司也无法开始回收其研发成本。”
该过程始于对收集到的临床试验数据的统计分析,创建出表格和图表等输出。技术作者随后将此数据与用于监管提交的报告模板提取和合并。需要大量的质量保证(QA)过程,以确保100多页报告中的所有数据都一致、全面且符合监管标准。
随着生成式人工智能的到来,诺和诺德斯考夫的团队看到了在CSR制作中实现显著效率的机会。因此,诺诺斯克里普诞生了。
2023年中开始启动项目,斯考夫的团队利用诺诺斯克里普重新构思了他们的工作流程。他们通过利用检索增强生成动态编译CSR,提示最先进的大型语言模型(LLM)使用临床试验的统计输出以及报告模板的矢量嵌入。
几周内,实验证明取得了成功。诺诺斯克里普更快、更准确地产生了CSR,且所需资源比以前的手动方法少。诺诺斯克里普已经准备好进入黄金时段。
托比亚斯·克鲁佩林,诺和诺德斯的诺诺斯克里普技术负责人和统计编程专家,解释了推动诺诺斯克里普的生成式人工智能堆栈。“每个基础模型都有其自身的优点和缺点,所以我们通常为每个编制的报告尝试不同的嵌入和生成模型。”
诺诺斯克里普使用由亚马逊Bedrock托管的Claude 3和Titan基础模型,以及公司自己的ChatGPT私有实例。借助LangChain开发和编排框架,团队可以快速轻松地在模型之间切换,而无需更改任何应用程序代码。使用RAG,模型通过由MongoDB Atlas矢量搜索管理的报告数据和矢量嵌入来提供服务。
诺诺斯克里普根据定义的内容规则和统计输出生成经过验证的文本,Atlas矢量搜索计算每个文本片段与相关统计数据的相似度。这结合LLM输出草拟CSR。通过利用Atlas矢量搜索,相关文本可以以高度精确和准确的方式被选中。所有来源的完整溯源都呈现出来,使得作者可以验证准确性,从而消除了数周的写作和审查。
克鲁佩林说:“MongoDB Atlas的伟大之处在于,我们可以在所有相关文本片段和元数据旁边存储报告的原生矢量嵌入。这意味着我们可以快速运行非常强大和复杂的查询。对于每个矢量嵌入,我们都可以根据来源文档、作者和创作时间进行筛选。”
托比亚斯·克鲁佩林,博士,诺和诺德克
图2:诺诺斯克里普云原生架构
在 NovoScribe 项目的初期,Kröpelin 和 Novo Nordisk 统计团队开始使用他们日常工作中常用的关系型数据库。但很快便显而易见,需要将统计输出和报告文本输入到 LLMs 的数据模型非常复杂,远远无法适应 NovoScribe 快速功能开发的步伐。
Kröpelin 表示:“使用我们传统关系型数据库的表格模型,我们可能会结束于数十个单独的表,每个表中只有几列。这些与我的团队在代码中使用的 Python 字典完全不同,这降低了我们的开发速度。同时,我们无法在不进行复杂的数据库模式迁移的情况下对应用程序进行任何更改。在查询时将这些表连接起来以提示 LLMs 严重损害了应用程序性能和用户体验。”
除了关系型数据库之外,Kröpelin 的团队也对 MongoDB 熟悉,并很快意识到 MongoDB 的文档数据模型将提供 NovoScribe 所需的易用性、灵活性和速度。MongoDB Python 驱动器的一次调用就可以检索整个对象——包括源文本片段、其向量嵌入和元数据——而无需连接数据。
除了编程访问之外,MongoDB Compass 可供非开发团队成员通过 GUI 查看和筛选存储在 MongoDB 中的数据,使他们能够在将其提供给 LLMs 之前审查数据集的完整性。
通过使用完全管理的 MongoDB Atlas 服务,Novo Nordisk 获得了运行高度监管应用程序所需的任务关键保障。正如 Novo Nordisk 数字化战略负责人 Waheed Jowiya 所说:“安全和灾难恢复是不可或缺的。我们通过 Atlas 对 Amazon Privatelink 的支持获得了 VPC 访问。此外,细粒度访问控制、审计、端到端数据加密和备份都是 Atlas 的标准功能,通过简单的 API 调用来配置。”
Jowiya 继续说:“我们团队规模较小,所以 MongoDB Atlas 提供的操作自动化非常有价值。它还为我们提供了选择性。NovoScribe 今天在 AWS 上运行,但作为一家公司,我们与 Azure 也有关系。通过其多云支持,我们可以在两个超大规模平台之间自由地运行 Atlas,而没有锁定。”
Novo Nordisk 数字化战略负责人 Waheed Jowiya
乔伊亚进一步说明,使用从MongoDB Atlas检索的数据,LLM只需几分钟即可生成CSR,并生成最终输出。其余时间都用于QA。技术高超的团队成员不再需要花费时间收集数据,或者检查他们是否已将正确的统计数据粘贴到报告的适当部分。现在,通用AI模型自动化了这一过程,让他们有更多时间专注于推动更多突破性研究和发展。
对于诺和诺德公司来说,NovoScribe只是开始。除了CSR之外,该公司正在探索许多新的机会,将通用AI应用于其业务的各个方面,MongoDB Atlas是其努力的核心。
路易丝·林德·斯科夫,诺和诺德公司内容数字化负责人
想了解更多关于他人如何利用AI进行创新的信息,请查看使用MongoDB构建AI案例研究系列。您还可以注册MongoDB Atlas,并访问Atlas Vector Search快速入门指南,开始构建更智能的搜索或在您的下一个项目中开始使用通用AI。