1923年成立于丹麦的诺和诺德,如今是世界领先的医疗保健公司之一。在糖尿病治疗领域的传承基础上,该公司的使命是推动变革,战胜严重慢性病。它通过开创科学突破,扩大其药物的可及性,并致力于预防——最终治愈——疾病来实现这一目标。
诺和诺德在80个国家拥有超过64,000名员工。其产品在170个国家销售,在2023财年创造了2,320亿丹麦克朗(合335亿美元)的收入。
诺和诺德内容数字化负责人Louise Lind Skov解释道:“我们的治疗今天正在惠及数百万患有糖尿病、肥胖和罕见血液及内分泌疾病的人。我们生产了世界上50%的胰岛素,制造了超过6亿支胰岛素笔,超过3600万人正在使用我们的糖尿病护理产品。从我们的实验室到我们的生产车间,我们正在发现和开发创新生物药品,并将它们带给全球的患者。”
通过利用Amazon Bedrock和MongoDB Atlas的生成式AI(gen AI),诺和诺德极大地加快了其新药获得批准和交付给患者的时间。
路易丝·林德·斯科夫,诺和诺德
图1:临床研究报告示例
斯科夫解释了制作临床研究报告所需的时间和精力,他说:“一份CSR通常需要大约12周的时间来编制,涉及统计学家、科学家和技术作者的多学科团队。任何一天的延误都意味着患者无法获得他们需要的治疗,公司也无法开始收回研发成本。”
这个过程始于对在野外收集的临床试验数据的统计分析,生成如表和图等输出。技术作者随后将此数据提取并合并到用于监管提交的报告模板中。需要广泛的质量保证(QA)过程,以确保100多页报告中的所有数据都是一致的、全面的并且符合监管标准。
随着生成式AI的到来,诺和诺德斯科夫的团队看到了在CSR生产中提高效率的机遇。因此,NovoScribe诞生了。
2023年中旬启动项目,斯科夫的团队使用NovoScribe重新构想了他们的工作流程。他们通过利用检索增强生成,结合临床试验的统计输出和报告模板的向量嵌入,动态编译CSR,进行了实验。
几周内,实验证明是成功的。NovoScribe更快、更准确地生成CSR,并且比以前的手动方法所需的资源更少。NovoScribe已准备好投入“主流”使用。
托比亚斯·克罗佩林,诺和诺德NovoScribe技术负责人和统计编程专家,解释了驱动NovoScribe的生成式AI堆栈。“每个基础模型都有其自身的优点和缺点,所以我们通常会对每个报告编译进行多种不同的嵌入和生成模型的实验。”
NovoScribe使用托管在Amazon Bedrock上的Claude 3和Titan基础模型,以及公司自己的ChatGPT私有实例。通过LangChain开发和编排框架,团队能够快速轻松地在模型之间切换,而无需更改任何应用程序代码。使用RAG,模型通过MongoDB Atlas Vector Search管理的报告数据和向量嵌入提供。
NovoScribe基于定义的内容规则和统计输出生成验证过的文本,Atlas矢量搜索计算每个文本片段与相关统计的相似度。结合LLM输出草拟CSR。通过使用Atlas矢量搜索,可以以高精度和准确度选择相关文本。呈现所有来源的完整谱系,使作者能够验证准确性,从而消除数周的编写和审查工作。
“MongoDB Atlas的伟大之处在于,我们可以将报告的原生矢量嵌入与其所有相关文本片段和元数据存储在一起,”Kröpelin说。“这意味着我们可以快速运行非常强大和复杂的查询。对于每个矢量嵌入,我们可以过滤出它来自哪个源文档、谁编写了它以及何时编写的。”
托比亚斯·克罗佩林,博士,诺和诺德
图2:NovoScribe云原生架构
NovoScribe项目开始时,克罗佩林和诺和诺德统计团队从他们日常工作中使用的传统关系数据库开始。但很快就很明显,需要将统计输出和报告文本输入到LLM中的数据模型非常复杂,远远不够灵活,无法应对NovoScribe快速功能开发的速度。
克罗佩林说:“使用我们传统关系数据库的表格模型,我们将有数十个单独的表,每个表只有几列。这些表与我团队在代码中使用的Python字典完全不同,这减缓了我们的开发速度。还减缓我们速度的是,我们无法在不进行复杂的数据库模式迁移的情况下更改我们的应用程序。然后在查询时间将这些表连接起来以提示LLM,这损害了应用程序性能和用户体验。”
除了关系数据库之外,克罗佩林团队也对MongoDB很熟悉,并很快认识到其文档数据模型将提供NovoScribe所需的易用性、灵活性和速度。MongoDB Python驱动程序的单次调用就可以检索整个对象——包括源文本片段、其矢量嵌入和元数据——无需进行数据连接的开销。
除了程序性访问之外,MongoDB Compass也适用于非开发者团队成员,通过GUI查看和过滤存储在MongoDB中的数据,使他们能够在将其提供给LLM之前审查数据集的完整性。
通过使用完全管理的MongoDB Atlas服务,诺和诺德获得了运行高度监管应用程序所需的任务关键保障。正如诺和诺德数字化战略负责人Waheed Jowiya所说:“安全和灾难恢复是不可协商的。我们通过Atlas对Amazon Privatelink的支持获得了VPC访问。此外,细粒度访问控制、审计、端到端数据加密和备份都是Atlas的标准功能,可以通过简单的API调用进行配置。”
Jowiya继续说:“我们团队规模很小,因此MongoDB Atlas提供的运营自动化非常宝贵。它还为我们提供了选择性。NovoScribe今天在AWS上运行,但作为一家公司,我们与Azure也有关系。通过其多云支持,我们可以在两个超大规模平台之间自由运行Atlas,没有任何锁定。”
Waheed Jowiya,Novo Nordisk 数字化战略负责人
Jowiya 继续表示,LLMs 仅需几分钟即可使用从 MongoDB Atlas 获取的数据生成 CSR,最终输出。其余时间都用于质量保证。高技能团队成员不再需要花费时间收集数据,或者检查他们是否将正确的统计数据复制粘贴到报告的适当部分。现在,通用 AI 模型自动处理这个过程,使他们能够专注于推动更多突破性的研发。
对于 Novo Nordisk 来说,NovoScribe 只是开始。除了 CSR,公司正在探索许多新的机会,将通用 AI 应用于其业务的各个方面,MongoDB Atlas 是其工作的核心。
Louise Lind Skov,Novo Nordisk 内容数字化负责人
要了解其他人如何利用 AI 进行创新,请查看 使用 MongoDB 构建人工智能 案例研究系列。您还可以 注册 MongoDB Atlas 并访问 Atlas Vector Search 快速入门指南,开始构建更智能的搜索,或在您下一个项目中开始使用通用 AI。